論文の概要: TableVista: Benchmarking Multimodal Table Reasoning under Visual and Structural Complexity
- arxiv url: http://arxiv.org/abs/2605.05955v1
- Date: Thu, 07 May 2026 10:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.681779
- Title: TableVista: Benchmarking Multimodal Table Reasoning under Visual and Structural Complexity
- Title(参考訳): TableVista: 視覚的および構造的複雑さ下でのマルチモーダルテーブル推論のベンチマーク
- Authors: Zheyuan Yang, Liqiang Shang, Junjie Chen, Xun Yang, Chenglong Xu, Bo Yuan, Chenyuan Jiao, Yaoru Sun, Yilun Zhao,
- Abstract要約: TableVistaは、視覚的および構造的な複雑さの下で、マルチモーダルテーブル推論の基礎モデルを評価するためのベンチマークである。
TableVistaは3000の高品質なテーブル推論問題で構成されており、各インスタンスは10の異なる視覚的バリエーションに拡張される。
我々は、TableVista上で29の最先端オープンソースおよびプロプライエタリ基盤モデルを広範囲に評価する。
- 参考スコア(独自算出の注目度): 28.65069048080315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce TableVista, a comprehensive benchmark for evaluating foundation models in multimodal table reasoning under visual and structural complexity. TableVista consists of 3,000 high-quality table reasoning problems, where each instance is expanded into 10 distinct visual variants through our multi-style rendering and transformation pipeline. This process encompasses diverse scenario styles, robustness perturbations, and vision-only configurations, culminating in 30,000 multimodal samples for a multi-dimensional evaluation. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary foundation models on TableVista. Through comprehensive quantitative and qualitative analysis, we find that while evaluated models remain largely stable across diverse rendering styles, they exhibit pronounced performance degradation on complex structural layouts and vision-only settings, revealing that current models struggle to maintain reasoning consistency when structural complexity combines with visually integrated presentations. These findings highlight critical gaps in current multimodal capabilities, providing insights for advancing more robust and reliable table understanding models.
- Abstract(参考訳): 視覚的および構造的複雑さの下でのマルチモーダルテーブル推論における基礎モデルを評価するための総合ベンチマークであるTableVistaを紹介する。
TableVistaは3,000の高品質なテーブル推論問題で構成されています。
このプロセスは様々なシナリオスタイル、頑健な摂動、視覚のみの構成を含み、多次元評価のために30,000個のマルチモーダルサンプルで終了する。
我々は、TableVista上で29の最先端オープンソースおよびプロプライエタリ基盤モデルを広範囲に評価する。
総合的な量的および質的な分析を通して、評価されたモデルは様々なレンダリングスタイルで概ね安定しているが、複雑な構造配置や視覚のみの設定において顕著な性能劣化を示し、構造的な複雑さと視覚的に統合されたプレゼンテーションが組み合わさった場合、現在のモデルは推論整合性を維持するのに苦労していることが明らかになった。
これらの知見は、現在のマルチモーダル能力における重要なギャップを浮き彫りにして、より堅牢で信頼性の高いテーブル理解モデルを進めるための洞察を提供する。
関連論文リスト
- CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions [59.85102794322254]
本稿では,完全自動質問応答(QA)に基づく評価パイプラインであるCREvalを提案する。
また、複雑な命令下での創造的なイメージ操作に特化した包括的なベンチマークであるCREval-Benchを紹介する。
その結果、クローズドソースモデルは、一般的に、複雑で創造的なタスクにおいて、オープンソースモデルよりも優れていますが、すべてのモデルは、そのような編集を効果的に完了させることに苦慮しています。
論文 参考訳(メタデータ) (2026-03-27T08:42:09Z) - VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining [49.78591189918702]
VisualToolChain-Bench (VTC-Bench)を導入し,マルチモーダル大言語モデル(MLLM)におけるツール使用の習熟度を評価する。
リアルなコンピュータビジョンパイプラインに合わせるために、我々のフレームワークは32種類のOpenCVベースの視覚操作を備えている。
正確な評価のために、9カテゴリの認知階層にまたがる680のキュレートされた問題を提示する。
論文 参考訳(メタデータ) (2026-03-16T09:31:44Z) - Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images [0.42970700836450476]
Visual-TableQAは、複雑なデータに対する視覚的推論を評価し、拡張するために設計された、大規模でオープンなドメインデータセットである。
Visual-TableQAは2.5kのリッチな構造化されたテーブルと6kの推論集約型QAペアで構成され、いずれもUSD 100以下のコストで生産される。
論文 参考訳(メタデータ) (2025-09-09T17:52:26Z) - MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning [40.95790862132066]
MMTBENCH (MMTBENCH) は、様々な実世界の情報源から描画される500の実世界のマルチモーダルテーブルからなるベンチマークである。
MMTBENCH の質問は、4つの質問タイプ (Explicit, Implicit, Answer Mention, Visual Based)、5つの推論タイプ (Mathematical, Extrema Identification, Fact Verification, Vision Based, etcs)、8つのテーブルタイプをカバーしている。
論文 参考訳(メタデータ) (2025-05-27T21:09:11Z) - Multi-View Factorizing and Disentangling: A Novel Framework for Incomplete Multi-View Multi-Label Classification [9.905528765058541]
非完全多視点マルチラベル分類(iMvMLC)のための新しいフレームワークを提案する。
本手法は,多視点表現をビュー一貫性とビュー固有の2つの独立した要素に分解する。
我々のフレームワークは、一貫した表現学習を3つの重要なサブオブジェクトに革新的に分解する。
論文 参考訳(メタデータ) (2025-01-11T12:19:20Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。