論文の概要: Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training
- arxiv url: http://arxiv.org/abs/2206.00621v2
- Date: Mon, 12 Jun 2023 12:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 03:00:40.311876
- Title: Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training
- Title(参考訳): クロスビュー言語モデリング : 統合クロスリンガル・クロスモーダル事前学習に向けて
- Authors: Yan Zeng, Wangchunshu Zhou, Ao Luo, Ziming Cheng, Xinsong Zhang
- Abstract要約: 言語間およびモーダル間の事前学習を統一する,シンプルで効果的な事前学習フレームワークであるクロスビュー言語モデリングを導入する。
我々のアプローチは、言語横断とモーダル横断の事前学習が、同じオブジェクトの2つの異なるビューを共通の意味空間に整合させることで同じ目標を共有するという重要な観察によって動機付けられている。
CLMは、ゼロショットのクロスランガル転送により、代表的英語ビジョン言語モデルの翻訳テスト性能を上回る最初のマルチランガル・マルチモーダル事前訓練モデルである。
- 参考スコア(独自算出の注目度): 21.017471684853987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Cross-View Language Modeling, a simple and
effective pre-training framework that unifies cross-lingual and cross-modal
pre-training with shared architectures and objectives. Our approach is
motivated by a key observation that cross-lingual and cross-modal pre-training
share the same goal of aligning two different views of the same object into a
common semantic space. To this end, the cross-view language modeling framework
considers both multi-modal data (i.e., image-caption pairs) and multi-lingual
data (i.e., parallel sentence pairs) as two different views of the same object,
and trains the model to align the two views by maximizing the mutual
information between them with conditional masked language modeling and
contrastive learning. We pre-train CCLM, a Cross-lingual Cross-modal Language
Model, with the cross-view language modeling framework. Empirical results on
IGLUE, a multi-lingual multi-modal benchmark, and two multi-lingual image-text
retrieval datasets show that while conceptually simpler, CCLM significantly
outperforms the prior state-of-the-art with an average absolute improvement of
over 10%. Moreover, CCLM is the first multi-lingual multi-modal pre-trained
model that surpasses the translate-test performance of representative English
vision-language models by zero-shot cross-lingual transfer.
- Abstract(参考訳): 本稿では,共通のアーキテクチャと目的を持つ言語間および言語間事前学習を統合する,シンプルで効果的な事前学習フレームワークであるcross-view language modelingを提案する。
クロスリンガルとクロスモーダルプレトレーニングは、同じオブジェクトの2つの異なるビューを共通の意味空間に合わせるという、同じ目標を共有しています。
この目的のために、クロスビュー言語モデリングフレームワークは、マルチモーダルデータ(イメージキャプチャペア)とマルチリンガルデータ(並列文ペア)の両方を、同じオブジェクトの2つの異なるビューとして考慮し、それらの間の相互情報を条件付きマスク言語モデリングとコントラスト学習で最大化することにより、モデルを訓練する。
我々は、クロスプラットフォーム言語モデルであるCCLMを、クロスビュー言語モデリングフレームワークで事前訓練する。
マルチリンガルマルチモーダルベンチマークであるiglueと2つのマルチリンガル画像テキスト検索データセットの実験結果によると、cclmは概念的には単純であるが、以前の最先端技術よりも10%以上大きく改善されている。
さらに、cclmは、ゼロショットクロスリンガルトランスファーにより、英語の代表的な視覚言語モデルの翻訳テスト性能を上回った、最初の多言語マルチモーダル事前学習モデルである。
関連論文リスト
- CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal
Retrieval [57.98555925471121]
言語間のクロスモーダル検索が注目を集めている。
ほとんどのCCR手法は、機械翻訳を通して擬似並列視覚言語コーパスを構成する。
本稿では,CCRにおける雑音対応学習のためのDual-view Curricular Optimal Transport (DCOT)を提案する。
論文 参考訳(メタデータ) (2023-09-11T13:44:46Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - MVP: Multi-Stage Vision-Language Pre-Training via Multi-Level Semantic
Alignment [24.720485548282845]
言語と視覚のための2段階の意味表現を構築するために,両モードの概念を導入する。
我々は、一様学習と多様学習という2つの段階において、相互モダリティモデルを訓練する。
我々のモデルは、いくつかのビジョンと言語タスクに関する最先端の結果を生成する。
論文 参考訳(メタデータ) (2022-01-29T14:30:59Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual
Semantics with Monolingual Corpora [21.78571365050787]
ERNIE-Mは、複数の言語の表現をモノリンガルコーパスと整合させる新しいトレーニング手法である。
単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にする。
実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:52:27Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。