論文の概要: MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space
- arxiv url: http://arxiv.org/abs/2506.11684v1
- Date: Fri, 13 Jun 2025 11:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.769668
- Title: MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space
- Title(参考訳): MTabVQA:視覚空間における言語モデルのマルチタブラル推論の評価
- Authors: Anshul Singh, Chris Biemann, Jan Strich,
- Abstract要約: MTabVQAは,多変数の視覚的質問応答に特化して設計された新しいベンチマークである。
MTabVQAは3,745組の複雑な質問応答対で構成されており、複数の視覚的に描画されたテーブルイメージに対してマルチホップ推論を必要とする。
MTabVQA-Instructを用いた微調整VLMでは,視覚的マルチタブラル推論の性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 16.35255926212628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable capabilities in interpreting visual layouts and text. However, a significant challenge remains in their ability to interpret robustly and reason over multi-tabular data presented as images, a common occurrence in real-world scenarios like web pages and digital documents. Existing benchmarks typically address single tables or non-visual data (text/structured). This leaves a critical gap: they don't assess the ability to parse diverse table images, correlate information across them, and perform multi-hop reasoning on the combined visual data. We introduce MTabVQA, a novel benchmark specifically designed for multi-tabular visual question answering to bridge that gap. MTabVQA comprises 3,745 complex question-answer pairs that necessitate multi-hop reasoning across several visually rendered table images. We provide extensive benchmark results for state-of-the-art VLMs on MTabVQA, revealing significant performance limitations. We further investigate post-training techniques to enhance these reasoning abilities and release MTabVQA-Instruct, a large-scale instruction-tuning dataset. Our experiments show that fine-tuning VLMs with MTabVQA-Instruct substantially improves their performance on visual multi-tabular reasoning. Code and dataset (https://huggingface.co/datasets/mtabvqa/MTabVQA-Eval) are available online (https://anonymous.4open.science/r/MTabVQA-EMNLP-B16E).
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的なレイアウトやテキストを解釈する際、顕著な機能を示す。
しかし、ウェブページやデジタルドキュメントのような現実のシナリオでよく見られる、画像として提示される多言語データに対して頑健に解釈し、推論する能力において、大きな課題が残っている。
既存のベンチマークは通常、単一のテーブルまたは非視覚データ(text/structured)に対処する。
多様なテーブルイメージを解析し、情報を相互に関連付け、組み合わせた視覚データに基づいてマルチホップ推論を実行する能力を評価しない。
MTabVQAは,そのギャップを埋めるために,多変数の視覚的質問応答に特化して設計された新しいベンチマークである。
MTabVQAは3,745組の複雑な質問応答対で構成されており、複数の視覚的に描画されたテーブルイメージに対してマルチホップ推論を必要とする。
我々はMTabVQA上で最先端のVLMのベンチマーク結果を提供し、性能の大幅な制限を明らかにした。
さらに,これらの推論能力を高めるためのポストトレーニング手法と,大規模な命令チューニングデータセットであるMTabVQA-Instructをリリースする。
MTabVQA-Instructを用いた微調整VLMは,視覚的マルチタブラル推論の性能を大幅に向上することを示した。
コードとデータセット(https://huggingface.co/datasets/mtabvqa/MTabVQA-Eval)はオンラインで入手できる(https://anonymous.4open.science/r/MTabVQA-EMNLP-B16E)。
関連論文リスト
- Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains [4.828743805126944]
本稿では、テーブルVQA-Benchと呼ばれるテーブル視覚質問応答のベンチマークを確立する。
既存のデータセットには、TableVQAの重要な2つのコンポーネントであるイメージやQAペアが組み込まれていない点に注意が必要だ。
論文 参考訳(メタデータ) (2024-04-30T02:05:18Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。