Fugu-MT 論文翻訳(概要): MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering

論文の概要: MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering

arxiv url: http://arxiv.org/abs/2405.11985v1
Date: Mon, 20 May 2024 12:35:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 13:14:56.743757
Title: MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering
Title（参考訳）: MTVQA:多言語テキスト中心ビジュアル質問応答のベンチマーク
Authors: Jingqun Tang, Qi Liu, Yongjie Ye, Jinghui Lu, Shu Wei, Chunhui Lin, Wanqing Li, Mohamad Fitri Faiz Bin Mahmood, Hao Feng, Zhen Zhao, Yanjie Wang, Yuliang Liu, Hao Liu, Xiang Bai, Can Huang,
Abstract要約: 我々は、MTVQAと呼ばれる9つの言語で高品質なヒューマンエキスパートアノテーションを用いたベンチマークを提供する。 MTVQAは、テキスト中心のシナリオに人間の専門家アノテーションを提供する最初の多言語TEC-VQAベンチマークである。
参考スコア（独自算出の注目度）: 58.92057773071854
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-Centric Visual Question Answering (TEC-VQA) in its proper format not only facilitates human-machine interaction in text-centric visual environments but also serves as a de facto gold proxy to evaluate AI models in the domain of text-centric scene understanding. However, most TEC-VQA benchmarks have focused on high-resource languages like English and Chinese. Despite pioneering works to expand multilingual QA pairs in non-text-centric VQA datasets using translation engines, the translation-based protocol encounters a substantial ``Visual-textual misalignment'' problem when applied to TEC-VQA. Specifically, it prioritizes the text in question-answer pairs while disregarding the visual text present in images. Furthermore, it does not adequately tackle challenges related to nuanced meaning, contextual distortion, language bias, and question-type diversity. In this work, we address the task of multilingual TEC-VQA and provide a benchmark with high-quality human expert annotations in 9 diverse languages, called MTVQA. To our knowledge, MTVQA is the first multilingual TEC-VQA benchmark to provide human expert annotations for text-centric scenarios. Further, by evaluating several state-of-the-art Multimodal Large Language Models (MLLMs), including GPT-4V, on our MTVQA dataset, it is evident that there is still room for performance improvement, underscoring the value of our dataset. We hope this dataset will provide researchers with fresh perspectives and inspiration within the community. The MTVQA dataset will be available at https://huggingface.co/datasets/ByteDance/MTVQA.
Abstract（参考訳）: Text-Centric Visual Question Answering (TEC-VQA)は、テキスト中心の視覚環境における人間と機械の相互作用を促進するだけでなく、テキスト中心のシーン理解の領域におけるAIモデルを評価するデファクトゴールドプロキシとしても機能する。しかしながら、ほとんどのTEC-VQAベンチマークは、英語や中国語のような高リソース言語に焦点を当てている。翻訳エンジンを用いた非テキスト中心のVQAデータセットにおける多言語QAペアの拡張という先駆的な取り組みにもかかわらず、TEC-VQAに適用した場合、翻訳ベースのプロトコルは「視覚的テキストの誤り」という重大な問題に遭遇する。具体的には、画像に存在する視覚的テキストを無視しながら、質問対のテキストを優先する。さらに、ニュアンス付き意味、文脈歪み、言語バイアス、質問型多様性に関連する問題に適切に対処することができない。本研究では、多言語TEC-VQAの課題に対処し、MTVQAと呼ばれる9つの言語で高品質な人間専門家アノテーションをベンチマークする。我々の知る限り、MTVQAはテキスト中心のシナリオに対する人間の専門家アノテーションを提供する最初の多言語TEC-VQAベンチマークである。さらに、我々のMTVQAデータセット上で、GPT-4Vを含む最先端のMLLM(Multimodal Large Language Models)を評価することにより、我々のデータセットの価値を裏付けるパフォーマンス改善の余地がまだ残っていることが明らかである。このデータセットが、コミュニティ内で新たな視点とインスピレーションを提供することを期待しています。 MTVQAデータセットはhttps://huggingface.co/datasets/ByteDance/MTVQAで提供される。

関連論文リスト

Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。 XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文参考訳（メタデータ） (2024-12-23T18:48:04Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文参考訳（メタデータ） (2023-05-23T17:57:46Z)
EVJVQA Challenge: Multilingual Visual Question Answering [1.4641199499831683]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)の課題である。 EVJVQAはベトナム語と音声処理に関する第9回ワークショップ(VLSP 2022)で、多言語視覚質問応答のためのベンチマークデータセットとして使用される。本稿では,課題の組織化,共有タスク参加者が採用した手法の概要,その結果について述べる。
論文参考訳（メタデータ） (2023-02-23T02:38:39Z)
Learning to Answer Multilingual and Code-Mixed Questions [4.290420179006601]
質問応答(QA)は、人間とコンピュータのシームレスな相互作用において重要な要素である。もっとも古い研究分野の1つであるにもかかわらず、現在のQAシステムは多言語クエリを扱う上で重要な課題に直面している。この論文は、多言語環境でエンドユーザクエリを扱うためのQA技術の進歩に焦点を当てている。
論文参考訳（メタデータ） (2022-11-14T16:49:58Z)
MaXM: Towards Multilingual Visual Question Answering [28.268881608141303]
我々は,データとモデリングの両面で,多言語視覚質問応答(mVQA)に対するスケーラブルなソリューションを提案する。まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。次に,Crossmodal-3600データセットの多言語キャプションに適用し,テスト専用VQAベンチマークであるMaXMを作成するための効率的なアノテーションプロトコルを開発する。
論文参考訳（メタデータ） (2022-09-12T16:53:37Z)
TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文参考訳（メタデータ） (2022-08-03T02:18:09Z)
Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文参考訳（メタデータ） (2022-06-02T12:25:52Z)
Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文参考訳（メタデータ） (2022-02-15T18:22:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。