論文の概要: Delving Deeper into Cross-lingual Visual Question Answering
- arxiv url: http://arxiv.org/abs/2202.07630v1
- Date: Tue, 15 Feb 2022 18:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 15:12:30.265630
- Title: Delving Deeper into Cross-lingual Visual Question Answering
- Title(参考訳): 言語間の視覚的質問への深い答え
- Authors: Chen Liu, Jonas Pfeiffer, Anna Korhonen, Ivan Vulic, Iryna Gurevych
- Abstract要約: 我々は,入力データの影響,微調整および評価体制,および言語間設定における2つのモード間の相互作用を理解することを目的としている。
モノリンガルな英語のパフォーマンスとのギャップを大幅に減らす新しい手法により、低転送性能に取り組む。
学習データやモデルにおけるモダリティバイアスを広範囲に分析し、なぜゼロショットのパフォーマンスギャップが問題の種類や言語に残るのかをさらに理解することを目的としている。
- 参考スコア(独自算出の注目度): 115.16614806717341
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual question answering (VQA) is one of the crucial vision-and-language
tasks. Yet, the bulk of research until recently has focused only on the English
language due to the lack of appropriate evaluation resources. Previous work on
cross-lingual VQA has reported poor zero-shot transfer performance of current
multilingual multimodal Transformers and large gaps to monolingual performance,
attributed mostly to misalignment of text embeddings between the source and
target languages, without providing any additional deeper analyses. In this
work, we delve deeper and address different aspects of cross-lingual VQA
holistically, aiming to understand the impact of input data, fine-tuning and
evaluation regimes, and interactions between the two modalities in
cross-lingual setups. 1) We tackle low transfer performance via novel methods
that substantially reduce the gap to monolingual English performance, yielding
+10 accuracy points over existing transfer methods. 2) We study and dissect
cross-lingual VQA across different question types of varying complexity, across
different multilingual multi-modal Transformers, and in zero-shot and few-shot
scenarios. 3) We further conduct extensive analyses on modality biases in
training data and models, aimed to further understand why zero-shot performance
gaps remain for some question types and languages. We hope that the novel
methods and detailed analyses will guide further progress in multilingual VQA.
- Abstract(参考訳): 視覚的質問応答(VQA)は視覚と言語の重要なタスクの1つである。
しかし、最近まで多くの研究は、適切な評価リソースの欠如のため、英語のみに焦点を当ててきた。
従来の言語間VQAの研究では、現在の多言語マルチモーダルトランスフォーマーのゼロショット転送性能が低かったこと、およびモノリンガル性能に対する大きなギャップが報告されている。
本研究では、入力データの影響、微調整および評価体制、および言語間セットアップにおける2つのモード間の相互作用を理解することを目的として、言語間VQAの様々な側面を深く掘り下げて対処する。
1) 単言語英語性能のギャップを実質的に低減し, 既存のトランスファー法に比べて+10の精度ポイントを得る新しい手法により, 低転送性能に取り組む。
2) 諸問題の種類,多言語多モード変換器,ゼロショット,少数ショットのシナリオにおいて,多言語間VQAについて検討し,検討した。
3) 学習データやモデルにおけるモダリティバイアスに関する広範な分析を行い, なぜゼロショット性能差が問題型や言語に残るのかをさらに理解することを目的とした。
新たな手法と詳細な分析により,多言語VQAのさらなる進歩が期待できる。
関連論文リスト
- Bridging the Language Gap: Knowledge Injected Multilingual Question
Answering [19.768708263635176]
本稿では,異なる言語を理解するモデルの能力を高めるために,一般化された言語間移動フレームワークを提案する。
実世界のデータセット MLQA に対する実験結果から,提案手法は大きなマージンで性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-04-06T15:41:25Z) - Improving the Cross-Lingual Generalisation in Visual Question Answering [40.86774711775718]
多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
論文 参考訳(メタデータ) (2022-09-07T08:07:43Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。