論文の概要: Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Real-World Tables
- arxiv url: http://arxiv.org/abs/2511.17238v1
- Date: Fri, 21 Nov 2025 13:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.041909
- Title: Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Real-World Tables
- Title(参考訳): 翻訳と騒音の損失:現実世界のテーブル上でのVLMの故障モードを深く掘り下げる
- Authors: Anshul Singh, Rohan Chaudhary, Gagneet Singh, Abhay Kumary,
- Abstract要約: WikiTableQuestionsやFinQAといった既存のQA用データセットは、圧倒的にモノリンガル(英語)である。
MirageTVQAは、テーブル推論のためのより堅牢なVLMモデルに向けた進捗の測定と推進のためのベンチマークを提供する。
- 参考スコア(独自算出の注目度): 0.1749935196721634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive performance of VLMs is largely measured on benchmarks that fail to capture the complexities of real-world scenarios. Existing datasets for tabular QA, such as WikiTableQuestions and FinQA, are overwhelmingly monolingual (English) and present tables in a digitally perfect, clean format. This creates a significant gap between research and practice. To address this, we present \textbf{MirageTVQA}, a new benchmark designed to evaluate VLMs on these exact dimensions. Featuring nearly 60,000 QA pairs across 24 languages, MirageTVQA challenges models with tables that are not only multilingual but also visually imperfect, incorporating realistic noise to mimic scanned documents. Our evaluation of the leading VLMs reveals two primary failure points: a severe degradation in performance (over 35\% drop for the best models) when faced with visual noise and a consistent English-first bias where reasoning abilities fail to transfer to other languages. MirageTVQA provides a benchmark for measuring and driving progress towards more robust VLM models for table reasoning. The dataset and the code are available at: https://github.com/anshulsc/MirageTVQA.
- Abstract(参考訳): VLMの印象的な性能は、実世界のシナリオの複雑さを捉えるのに失敗するベンチマークで大きく測定されている。
WikiTableQuestionsやFinQAのような既存の表型QA用のデータセットは、圧倒的にモノリンガル(英語)であり、テーブルをデジタル的に完璧でクリーンなフォーマットで提示する。
これにより、研究と実践の間に大きなギャップが生まれる。
この問題に対処するために、これらの正確な次元でVLMを評価するために設計された新しいベンチマークである \textbf{MirageTVQA} を提示する。
約6万のQAペアが24言語にまたがっており、MirageTVQAはマルチリンガルであるだけでなく、視覚的に不完全なテーブルを持つモデルに挑戦し、スキャンされた文書を模倣するために現実的なノイズを取り入れている。
視覚ノイズに直面する場合の性能低下(ベストモデルでは35%以上低下)と、推論能力が他言語に伝達できない場合の英語優先バイアスの2つの主要な障害点について評価した。
MirageTVQAは、テーブル推論のためのより堅牢なVLMモデルに向けた進捗の測定と推進のためのベンチマークを提供する。
データセットとコードは、https://github.com/anshulsc/MirageTVQA.comで入手できる。
関連論文リスト
- TALENT: Table VQA via Augmented Language-Enhanced Natural-text Transcription [15.734561144090641]
表視質問回答(Table VQA)は、一般的に大きな視覚言語モデル(VLM)によって対処される。
テーブルの二重表現を利用する軽量なフレームワークTALENTを提案する。
論文 参考訳(メタデータ) (2025-10-08T14:56:42Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - TableEval: A Real-World Benchmark for Complex, Multilingual, and Multi-Structured Table Question Answering [41.12322828986314]
既存のTableQAベンチマークは、単純なフラットテーブルにフォーカスし、データ漏洩に悩まされることがしばしばある。
現実的なTableQAタスク上でLLMを評価するために設計された新しいベンチマークであるTableEvalを紹介する。
データ漏洩のリスクを最小限に抑えるため、最近の実世界の文書からすべてのデータを収集する。
論文 参考訳(メタデータ) (2025-06-04T13:39:01Z) - Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning [89.93384726755106]
視覚言語強化学習(RL)は主に狭い領域に焦点を当てている。
ビデオゲームは本質的に、検証が容易なリッチなビジュアル要素とメカニクスを提供します。
ビデオゲームにおけるマルチモーダルかつ検証可能な報酬を完全に活用するために,Game-RLを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:47:44Z) - VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering [28.045285777736876]
2つの重要な特徴を持つマルチモーダルなファクト検索ベンチマークであるVisualSimpleQAを紹介する。
視覚的・言語的モダリティにおけるLVLMの合理化・分離評価を可能にする。
15個のLVLMの実験では、GPT-4oのような最先端のモデルでさえ、わずか60%以上の精度しか達成していない。
論文 参考訳(メタデータ) (2025-03-09T07:25:32Z) - Protecting multimodal large language models against misleading visualizations [94.71976205962527]
この結果から,誤解を招く可視化に対する質問応答(QA)の精度が,ランダムなベースラインのレベルに平均で低下していることが示唆された。
本研究では,非ミスリーディングの精度を損なうことなく,誤解を招くビジュアライゼーションにおけるQA性能を改善するための最初の推論時間手法を提案する。
テーブルベースのQAと視覚化を再描画する2つの方法が有効であり、最大19.6ポイントの改善が期待できる。
論文 参考訳(メタデータ) (2025-02-27T20:22:34Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。