論文の概要: MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning
- arxiv url: http://arxiv.org/abs/2505.21771v1
- Date: Tue, 27 May 2025 21:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.296099
- Title: MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning
- Title(参考訳): MMTBENCH:複合マルチモーダルテーブル推論のための統一ベンチマーク
- Authors: Prasham Yatinkumar Titiya, Jainil Trivedi, Chitta Baral, Vivek Gupta,
- Abstract要約: MMTBENCH (MMTBENCH) は、様々な実世界の情報源から描画される500の実世界のマルチモーダルテーブルからなるベンチマークである。
MMTBENCH の質問は、4つの質問タイプ (Explicit, Implicit, Answer Mention, Visual Based)、5つの推論タイプ (Mathematical, Extrema Identification, Fact Verification, Vision Based, etcs)、8つのテーブルタイプをカバーしている。
- 参考スコア(独自算出の注目度): 40.95790862132066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal tables those that integrate semi structured data with visual elements such as charts and maps are ubiquitous across real world domains, yet they pose a formidable challenge to current vision language models (VLMs). While Large Language models (LLMs) and VLMs have demonstrated strong capabilities in text and image understanding, their performance on complex, real world multimodal table reasoning remains unexplored. To bridge this gap, we introduce MMTBENCH (Multimodal Table Benchmark), a benchmark consisting of 500 real world multimodal tables drawn from diverse real world sources, with a total of 4021 question answer pairs. MMTBENCH questions cover four question types (Explicit, Implicit, Answer Mention, and Visual Based), five reasoning types (Mathematical, Extrema Identification, Fact Verification, Vision Based, and Others), and eight table types (Single/Multiple Entity, Maps and Charts with Entities, Single/Multiple Charts, Maps, and Visualizations). Extensive evaluation of state of the art models on all types reveals substantial performance gaps, particularly on questions requiring visual-based reasoning and multi-step inference. These findings show the urgent need for improved architectures that more tightly integrate vision and language processing. By providing a challenging, high-quality resource that mirrors the complexity of real-world tasks, MMTBENCH underscores its value as a resource for future research on multimodal tables.
- Abstract(参考訳): 半構造化データをチャートやマップなどのビジュアル要素と統合するマルチモーダルテーブルは、現実世界のドメインにまたがってユビキタスであるが、現在の視覚言語モデル(VLM)には深刻な課題がある。
大規模言語モデル(LLM)とVLMは、テキストや画像の理解において強力な能力を示してきたが、複雑な実世界のマルチモーダルテーブルの推論における性能は未解明のままである。
このギャップを埋めるために, MMTBENCH (Multimodal Table Benchmark) を導入する。
MMTBENCHの質問は、4つの質問タイプ(説明、インプリシット、アンサー・メンション、ビジュアル・ベース)、5つの推論タイプ(数学、エクストリーム識別、ファクト検証、ビジョン・ベース、その他)、8つのテーブルタイプ(シングル/マルチ・エンティティ、マップとチャート、シングル/マルチプルチャート、マップ、可視化)をカバーしている。
あらゆるタイプの最先端モデルに対する広範囲な評価は、特に視覚に基づく推論と多段階推論を必要とする問題において、大きなパフォーマンスギャップを示す。
これらの結果は、視覚と言語処理をより緊密に統合するアーキテクチャの改善が緊急に必要であることを示している。
MMTBENCHは、現実世界のタスクの複雑さを反映した、挑戦的で高品質なリソースを提供することによって、将来のマルチモーダルテーブルの研究のためのリソースとしての価値を強調している。
関連論文リスト
- Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。
多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。
マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文 参考訳(メタデータ) (2024-12-23T18:15:19Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - Multimodal Table Understanding [26.652797853893233]
直感的な視覚情報を使ってテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。
そこで我々は,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。
汎用マルチモーダル大言語モデル(MLLM)であるTable-LLaVAを開発した。
論文 参考訳(メタデータ) (2024-06-12T11:27:03Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。