論文の概要: xGQA: Cross-Lingual Visual Question Answering
- arxiv url: http://arxiv.org/abs/2109.06082v1
- Date: Mon, 13 Sep 2021 15:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:42:21.078392
- Title: xGQA: Cross-Lingual Visual Question Answering
- Title(参考訳): xGQA: 言語横断のビジュアル質問回答
- Authors: Jonas Pfeiffer and Gregor Geigle and Aishwarya Kamath and Jan-Martin
O. Steitz and Stefan Roth and Ivan Vuli\'c and Iryna Gurevych
- Abstract要約: xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 100.35229218735938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal vision and language modeling have predominantly
focused on the English language, mostly due to the lack of multilingual
multimodal datasets to steer modeling efforts. In this work, we address this
gap and provide xGQA, a new multilingual evaluation benchmark for the visual
question answering task. We extend the established English GQA dataset to 7
typologically diverse languages, enabling us to detect and explore crucial
challenges in cross-lingual visual question answering. We further propose new
adapter-based approaches to adapt multimodal transformer-based models to become
multilingual, and -- vice versa -- multilingual models to become multimodal.
Our proposed methods outperform current state-of-the-art multilingual
multimodal models (e.g., M3P) in zero-shot cross-lingual settings, but the
accuracy remains low across the board; a performance drop of around 38 accuracy
points in target languages showcases the difficulty of zero-shot cross-lingual
transfer for this task. Our results suggest that simple cross-lingual transfer
of multimodal models yields latent multilingual multimodal misalignment,
calling for more sophisticated methods for vision and multilingual language
modeling. The xGQA dataset is available online at:
https://github.com/Adapter-Hub/xGQA.
- Abstract(参考訳): マルチモーダル・ビジョンと言語モデリングの最近の進歩は、主に英語に焦点を当てている。
本研究では,このギャップに対処し,視覚的質問応答タスクのための新しい多言語評価ベンチマークであるxGQAを提供する。
確立された英語GQAデータセットを7言語に拡張し,言語間視覚質問応答における重要な課題を検出し,探索する。
さらに,マルチモーダルトランスフォーマティブをマルチリンガル化するためのアダプタベースアプローチを提案し,マルチリンガルトランスフォーマティブをマルチモーダル化するためのマルチリンガルモデルを提案する。
提案手法は,現状の多言語マルチモーダルモデル(例えば,M3P)をゼロショット・クロスランガル・セッティングで上回るが,精度は依然として低く,目標言語における約38の精度ポイントの性能低下は,ゼロショット・クロスランガル・トランスファーの難しさを示している。
以上の結果から,マルチモーダルモデルの単純なクロスリンガル変換は潜在的なマルチリンガル・マルチモーダル・ミスアレーメントを生じさせ,視覚と多言語言語モデリングのより洗練された手法を求める。
xGQAデータセットは、https://github.com/Adapter-Hub/xGQA.comで公開されている。
関連論文リスト
- ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Meta-learning For Vision-and-language Cross-lingual Transfer [14.594704809280984]
バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。
我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。
本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-24T07:51:42Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Improving the Cross-Lingual Generalisation in Visual Question Answering [40.86774711775718]
多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
論文 参考訳(メタデータ) (2022-09-07T08:07:43Z) - Towards Developing a Multilingual and Code-Mixed Visual Question
Answering System by Knowledge Distillation [20.33235443471006]
本稿では,英語ビジョンモデル(教師)を,等しく効果的な多言語・コード混合モデル(学生)に拡張する知識蒸留手法を提案する。
また、大規模な多言語およびコード混合VQAデータセットを11の異なる言語セットアップで作成します。
実験結果と深部分析により,11種類の言語セットアップ上で,事前学習した言語ビジョンモデルに対して提案したVQAモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-10T03:47:29Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z) - MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer [136.09386219006123]
我々は、任意のタスクや言語への高いポータビリティとパラメータ効率の移行を可能にするアダプタベースのフレームワークであるMAD-Xを提案する。
MAD-Xは、名前付きエンティティ認識と因果コモンセンス推論に基づいて、タイプボロジーに多様性のある言語群を横断する言語間移動において、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-04-30T18:54:43Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。