論文の概要: MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering
- arxiv url: http://arxiv.org/abs/2405.11985v3
- Date: Tue, 19 Nov 2024 07:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:52.077754
- Title: MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering
- Title(参考訳): MTVQA:多言語テキスト中心ビジュアル質問応答のベンチマーク
- Authors: Jingqun Tang, Qi Liu, Yongjie Ye, Jinghui Lu, Shu Wei, Chunhui Lin, Wanqing Li, Mohamad Fitri Faiz Bin Mahmood, Hao Feng, Zhen Zhao, Yanjie Wang, Yuliang Liu, Hao Liu, Xiang Bai, Can Huang,
- Abstract要約: MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
- 参考スコア(独自算出の注目度): 58.92057773071854
- License:
- Abstract: Text-Centric Visual Question Answering (TEC-VQA) in its proper format not only facilitates human-machine interaction in text-centric visual environments but also serves as a de facto gold proxy to evaluate AI models in the domain of text-centric scene understanding. Nonetheless, most existing TEC-VQA benchmarks have focused on high-resource languages like English and Chinese. Despite pioneering works to expand multilingual QA pairs in non-text-centric VQA datasets through translation engines, the translation-based protocol encounters a substantial "visual-textual misalignment" problem when applied to TEC-VQA. Specifically, it prioritizes the text in question-answer pairs while disregarding the visual text present in images. Moreover, it fails to address complexities related to nuanced meaning, contextual distortion, language bias, and question-type diversity. In this work, we tackle multilingual TEC-VQA by introducing MTVQA, the first benchmark featuring high-quality human expert annotations across 9 diverse languages, consisting of 6,778 question-answer pairs across 2,116 images. Further, by comprehensively evaluating numerous state-of-the-art Multimodal Large Language Models~(MLLMs), including Qwen2-VL, GPT-4o, GPT-4V, Claude3, and Gemini, on the MTVQA benchmark, it is evident that there is still a large room for performance improvement (Qwen2-VL scoring 30.9 versus 79.7 for human performance), underscoring the value of MTVQA. Additionally, we supply multilingual training data within the MTVQA dataset, demonstrating that straightforward fine-tuning with this data can substantially enhance multilingual TEC-VQA performance. We aspire that MTVQA will offer the research community fresh insights and stimulate further exploration in multilingual visual text comprehension. The project homepage is available at https://bytedance.github.io/MTVQA/.
- Abstract(参考訳): Text-Centric Visual Question Answering (TEC-VQA)は、テキスト中心の視覚環境における人間と機械の相互作用を促進するだけでなく、テキスト中心のシーン理解の領域におけるAIモデルを評価するデファクトゴールドプロキシとしても機能する。
それでも、既存のTEC-VQAベンチマークのほとんどは、英語や中国語のような高リソース言語に焦点を当てている。
翻訳エンジンによる非テキスト中心のVQAデータセットにおける多言語QAペアの拡張という先駆的な取り組みにもかかわらず、翻訳ベースのプロトコルは、TEC-VQAに適用した場合、かなりの「視覚的・テキスト的誤り」問題に遭遇する。
具体的には、画像に存在する視覚的テキストを無視しながら、質問対のテキストを優先する。
さらに、ニュアンス付き意味、文脈歪み、言語バイアス、質問型多様性に関連する複雑さに対処できない。
MTVQAは9つの言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴付けるベンチマークであり、2,116枚の画像からなる6,778対の質問応答対で構成されている。
さらに、MTVQAベンチマークにおいて、Qwen2-VL、GPT-4o、GPT-4V、Claude3、Geminiを含む多くの最先端マルチモーダル大言語モデル~(MLLM)を総合的に評価することにより、まだ性能改善の余地が残っている(Qwen2-VLでは30.9対79.7)。
さらに、MTVQAデータセット内に多言語学習データを提供し、このデータによる簡単な微調整により、多言語TEC-VQAの性能を大幅に向上させることができることを示す。
我々は,MTVQAが研究コミュニティに新たな洞察を与え,多言語視覚テキスト理解のさらなる探求を促すことを願っている。
プロジェクトのホームページはhttps://bytedance.github.io/MTVQA/で公開されている。
関連論文リスト
- CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - EVJVQA Challenge: Multilingual Visual Question Answering [1.4641199499831683]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)の課題である。
EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答のためのベンチマークデータセットとして使用される。
本稿では,課題の組織化,共有タスク参加者が採用した手法の概要,その結果について述べる。
論文 参考訳(メタデータ) (2023-02-23T02:38:39Z) - Learning to Answer Multilingual and Code-Mixed Questions [4.290420179006601]
質問応答(QA)は、人間とコンピュータのシームレスな相互作用において重要な要素である。
もっとも古い研究分野の1つであるにもかかわらず、現在のQAシステムは多言語クエリを扱う上で重要な課題に直面している。
この論文は、多言語環境でエンドユーザクエリを扱うためのQA技術の進歩に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-14T16:49:58Z) - MaXM: Towards Multilingual Visual Question Answering [28.268881608141303]
我々は,データとモデリングの両面で,多言語視覚質問応答(mVQA)に対するスケーラブルなソリューションを提案する。
まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。
次に,Crossmodal-3600データセットの多言語キャプションに適用し,テスト専用VQAベンチマークであるMaXMを作成するための効率的なアノテーションプロトコルを開発する。
論文 参考訳(メタデータ) (2022-09-12T16:53:37Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。