論文の概要: Improving the Cross-Lingual Generalisation in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2209.02982v1
- Date: Wed, 7 Sep 2022 08:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:24:23.721106
- Title: Improving the Cross-Lingual Generalisation in Visual Question Answering
- Title(参考訳): 視覚質問応答における言語間一般化の改善
- Authors: Farhad Nooralahzadeh, Rico Sennrich
- Abstract要約: 多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
- 参考スコア(独自算出の注目度): 40.86774711775718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While several benefits were realized for multilingual vision-language
pretrained models, recent benchmarks across various tasks and languages showed
poor cross-lingual generalisation when multilingually pre-trained
vision-language models are applied to non-English data, with a large gap
between (supervised) English performance and (zero-shot) cross-lingual
transfer. In this work, we explore the poor performance of these models on a
zero-shot cross-lingual visual question answering (VQA) task, where models are
fine-tuned on English visual-question data and evaluated on 7 typologically
diverse languages. We improve cross-lingual transfer with three strategies: (1)
we introduce a linguistic prior objective to augment the cross-entropy loss
with a similarity-based loss to guide the model during training, (2) we learn a
task-specific subnetwork that improves cross-lingual generalisation and reduces
variance without model modification, (3) we augment training examples using
synthetic code-mixing to promote alignment of embeddings between source and
target languages. Our experiments on xGQA using the pretrained multilingual
multimodal transformers UC2 and M3P demonstrate the consistent effectiveness of
the proposed fine-tuning strategy for 7 languages, outperforming existing
transfer methods with sparse models. Code and data to reproduce our findings
are publicly available.
- Abstract(参考訳): マルチリンガル・ビジョン言語事前学習モデルにはいくつかの利点が得られたが、近年の様々なタスクや言語に対するベンチマークでは、英語以外のデータに多言語事前学習型ビジョン言語モデルを適用すると、言語間一般化が不十分であることが示されている。
本研究は,英語の視覚探索データに基づいてモデルを微調整し,類型的に多様な7つの言語で評価する,ゼロショット言語間視覚質問応答(VQA)タスクにおいて,これらのモデルの低性能について検討する。
1) 学習中にモデルを導出するために類似性に基づく損失による相互エントロピー損失を増大させる言語的目標を導入し, (2) 言語間一般化を改善し,モデルの修正なしに分散を低減できるタスク固有サブネットワークを学習し,(3) 合成コード混合を用いた訓練例を補強し,ソース言語とターゲット言語間の埋め込みのアライメントを促進する。
事前学習した多言語マルチモーダルトランスフォーマーuc2とm3pを用いたxgqa実験により,提案する7言語における微調整戦略が,スパースモデルによる既存転送法を上回った。
調査結果を再現するためのコードとデータは公開されています。
関連論文リスト
- xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Lightweight Cross-Lingual Sentence Representation Learning [57.9365829513914]
メモリ効率のよい言語間文表現を生成するために,2層のみの軽量なデュアルトランスフォーマーアーキテクチャを導入する。
本稿では,既存のシングルワードマスキング言語モデルと,新たに提案されたクロスランガルトークンレベルの再構築タスクを組み合わせた,新しい言語間言語モデルを提案する。
論文 参考訳(メタデータ) (2021-05-28T14:10:48Z) - Adaptive Sparse Transformer for Multilingual Translation [18.017674093519332]
多言語モデルの既知の課題は、否定的な言語干渉です。
多言語モデリングのための適応的でスパースなアーキテクチャを提案する。
我々のモデルは、推論コストを増加させることなく、翻訳品質の点で強力なベースラインを上回る。
論文 参考訳(メタデータ) (2021-04-15T10:31:07Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。