論文の概要: Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2103.08849v1
- Date: Tue, 16 Mar 2021 04:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:37:51.626521
- Title: Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models
- Title(参考訳): 視覚言語モデルのゼロショット言語間伝達のための多言語マルチモーダル事前学習
- Authors: Po-Yao Huang, Mandela Patrick, Junjie Hu, Graham Neubig, Florian Metze
and Alexander Hauptmann
- Abstract要約: 視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
- 参考スコア(独自算出の注目度): 144.85290716246533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies zero-shot cross-lingual transfer of vision-language
models. Specifically, we focus on multilingual text-to-video search and propose
a Transformer-based model that learns contextualized multilingual multimodal
embeddings. Under a zero-shot setting, we empirically demonstrate that
performance degrades significantly when we query the multilingual text-video
model with non-English sentences. To address this problem, we introduce a
multilingual multimodal pre-training strategy, and collect a new multilingual
instructional video dataset (MultiHowTo100M) for pre-training. Experiments on
VTT show that our method significantly improves video search in non-English
languages without additional annotations. Furthermore, when multilingual
annotations are available, our method outperforms recent baselines by a large
margin in multilingual text-to-video search on VTT and VATEX; as well as in
multilingual text-to-image search on Multi30K. Our model and Multi-HowTo100M is
available at http://github.com/berniebear/Mutli-HT100M.
- Abstract(参考訳): 本稿では,視覚言語モデルのゼロショット言語間伝達について検討する。
具体的には,多言語間テキスト対ビデオ検索に着目し,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
ゼロショット設定では,非英語文で多言語テキストビデオモデルに問い合わせると,性能が著しく低下することを示す。
この問題に対処するために,多言語マルチモーダル事前学習戦略を導入し,事前学習のための新しい多言語指導ビデオデータセット(multihowto100m)を収集する。
VTT実験により,アノテーションを付加せずに非英語での動画検索が大幅に改善された。
さらに,多言語アノテーションが利用可能であれば,vtt と vatex の多言語テキスト対ビデオ検索や multi30k の多言語テキスト対画像検索において,最近のベースラインを大きく上回っている。
私たちのモデルとMulti-HowTo100Mはhttp://github.com/berniebear/Mutli-HT100Mで利用可能です。
関連論文リスト
- PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval [39.41224716332499]
多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練する。
我々は、YouCook2ビデオデータセットの英語キャプションを8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
論文 参考訳(メタデータ) (2022-10-07T15:30:24Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - Towards Zero-shot Cross-lingual Image Retrieval and Tagging [1.4425878137951236]
テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
クラウドソーシングプラットフォームを用いて収集した7言語に,新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
論文 参考訳(メタデータ) (2021-09-15T23:39:15Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。