論文の概要: Towards Multi-Lingual Visual Question Answering
- arxiv url: http://arxiv.org/abs/2209.05401v1
- Date: Mon, 12 Sep 2022 16:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:21:10.961379
- Title: Towards Multi-Lingual Visual Question Answering
- Title(参考訳): 多言語視覚質問応答に向けて
- Authors: Soravit Changpinyo, Linting Xue, Idan Szpektor, Ashish V. Thapliyal,
Julien Amelot, Xi Chen, Radu Soricut
- Abstract要約: 我々は,データとモデリングの両面で,多言語視覚質問応答(mVQA)のスケーラブルなソリューションを提案する。
まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。
最後に、13言語において、統一的、多様で、オープンな、エンドツーエンドのmVQAモデリング手法を提案し、高い性能を示す。
- 参考スコア(独自算出の注目度): 26.37538019402958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) has been primarily studied through the lens
of the English language. Yet, tackling VQA in other languages in the same
manner would require considerable amount of resources. In this paper, we
propose scalable solutions to multi-lingual visual question answering (mVQA),
on both data and modeling fronts. We first propose a translation-based
framework to mVQA data generation that requires much less human annotation
efforts than the conventional approach of directly collection questions and
answers. Then, we apply our framework to the multi-lingual captions in the
Crossmodal-3600 dataset and develop an efficient annotation protocol to create
MAVERICS-XM3600 (MaXM), a test-only VQA benchmark in 7 diverse languages.
Finally, we propose an approach to unified, extensible, open-ended, and
end-to-end mVQA modeling and demonstrate strong performance in 13 languages.
- Abstract(参考訳): VQA(Visual Question Answering)は、主に英語のレンズを通して研究されている。
しかし、同じ方法で他の言語でVQAに取り組むには、かなりの量のリソースが必要になる。
本稿では,データとモデリングの両面で,多言語視覚質問応答(mVQA)のスケーラブルな解を提案する。
まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。
次に、Crossmodal-3600データセットの多言語キャプションに適用し、7言語でテスト専用のVQAベンチマークであるMAVERICS-XM3600(MaXM)を作成するための効率的なアノテーションプロトコルを開発する。
最後に,拡張性,オープンエンド,エンドツーエンドのmVQAモデリング手法を提案し,13言語で高い性能を示す。
関連論文リスト
- Towards Multilingual Audio-Visual Question Answering [1.3194391758295114]
機械翻訳を活用し、8言語を対象とした2つの多言語AVQAデータセットを提示する。
これにより、質問や回答を手作業で収集する、追加の人間のアノテーション作業が防止される。
提案したデータセットをベンチマークするために,様々なモデルアーキテクチャを備えたMERA-L, MERA-C, MERA-T というモデルスイートを導入する。
論文 参考訳(メタデータ) (2024-06-13T14:18:56Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。