論文の概要: WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild
- arxiv url: http://arxiv.org/abs/2605.01018v1
- Date: Fri, 01 May 2026 18:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.540796
- Title: WildTableBench: Benchmarking Multimodal Foundation Models on Table Understanding In the Wild
- Title(参考訳): WildTableBench: テーブル理解におけるマルチモーダル基礎モデルのベンチマーク
- Authors: Junzhe Huang, Xiaoxiao Sun, Yan Yang, Yuxuan Hou, Ruotian Zhang, Sirui Li, Hehe Fan, Serena Yeung-Levy, Xin Yu,
- Abstract要約: WildTableBenchは、現実世界の設定から自然に発生するテーブルイメージに対する質問応答ベンチマークである。
WildTableBenchは、オンラインフォーラムやさまざまなドメインのWebサイトから収集された402の高情報密度のテーブルイメージで構成されている。
本ベンチマークでは,21のフロンティアプロプライエタリおよびオープンソースマルチモーダル基盤モデルを評価した。
- 参考スコア(独自算出の注目度): 39.307422820271654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using multimodal foundation models to analyze table images is a high-value yet challenging application in consumer and enterprise scenarios. Despite its importance, current evaluations rely largely on structured-text tables or clean rendered images, leaving the visual complexity of in-the-wild table images underexplored. Such images feature varied layouts and diverse domains that demand sophisticated structural perception and numerical reasoning. To bridge this gap, we introduce WildTableBench, the first question-answering benchmark for naturally occurring table images from real-world settings. WildTableBench comprises 402 high-information-density table images collected from online forums and websites across diverse domains, together with 928 manually annotated and verified questions spanning 17 subtypes across five categories. We evaluate 21 frontier proprietary and open-source multimodal foundation models on this benchmark. Only one model exceeds 50% accuracy, while all remaining models range from 4.1% to 49.9%. We further conduct diagnostic analyses to characterize model failures and reveal persistent weaknesses in structural perception and reasoning. These results and analyses provide useful insights into current model capabilities and establish WildTableBench as a valuable diagnostic benchmark for table image understanding.
- Abstract(参考訳): テーブルイメージの解析にマルチモーダル基盤モデルを使用することは、消費者や企業のシナリオにおいて、高価値だが挑戦的なアプリケーションである。
その重要性にもかかわらず、現在の評価は構造化されたテキストテーブルやクリーンなレンダリング画像に大きく依存しており、Wildのテーブルイメージの視覚的複雑さを過小評価している。
このような画像は、高度な構造認識と数値推論を必要とする様々なレイアウトと多様な領域を特徴としている。
このギャップを埋めるために、実世界の設定から自然に発生するテーブルイメージに対する質問応答ベンチマークであるWildTableBenchを紹介します。
WildTableBenchは、さまざまなドメインにわたるオンラインフォーラムやウェブサイトから収集された402の高情報密度のテーブルイメージと、手動で注釈付けされ、検証された質問が5つのカテゴリにまたがる17のサブタイプにまたがる。
本ベンチマークでは,21のフロンティアプロプライエタリおよびオープンソースマルチモーダル基盤モデルを評価した。
1つのモデルのみが50%を超えるが、残りのモデルは全て4.1%から49.9%の範囲である。
さらに、モデル故障を特徴付ける診断分析を行い、構造的知覚と推論における永続的な弱点を明らかにする。
これらの結果と分析は、現在のモデル機能に関する有用な洞察を与え、テーブルイメージ理解のための貴重な診断ベンチマークとしてWildTableBenchを確立します。
関連論文リスト
- OmniTabBench: Mapping the Empirical Frontiers of GBDTs, Neural Networks, and Foundation Models for Tabular Data at Scale [82.32822441887886]
私たちはこれまでで最大のベンチマークであるOmniTabBenchを紹介します。
我々は、OmniTabBench上で、すべてのモデルファミリーから最先端モデルの大規模な評価を行い、支配的な勝者がいないことを確認した。
論文 参考訳(メタデータ) (2026-04-08T08:31:43Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images [0.42970700836450476]
Visual-TableQAは、複雑なデータに対する視覚的推論を評価し、拡張するために設計された、大規模でオープンなドメインデータセットである。
Visual-TableQAは2.5kのリッチな構造化されたテーブルと6kの推論集約型QAペアで構成され、いずれもUSD 100以下のコストで生産される。
論文 参考訳(メタデータ) (2025-09-09T17:52:26Z) - MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning [40.95790862132066]
MMTBENCH (MMTBENCH) は、様々な実世界の情報源から描画される500の実世界のマルチモーダルテーブルからなるベンチマークである。
MMTBENCH の質問は、4つの質問タイプ (Explicit, Implicit, Answer Mention, Visual Based)、5つの推論タイプ (Mathematical, Extrema Identification, Fact Verification, Vision Based, etcs)、8つのテーブルタイプをカバーしている。
論文 参考訳(メタデータ) (2025-05-27T21:09:11Z) - Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations [1.770767758587368]
本研究では,プロットやチャートの画像を線形化テーブルに変換するモダリティ変換モジュールであるDEPLOTの微調整について検討する。
データセットは、単純な、積み重ねられた、グループ化されたバーチャートで構成され、これらの視覚化のユニークな構造的特徴をターゲットにしている。
大規模言語モデル(LLM)の推論能力をさらに探求するため,質問応答セットと組み合わせた100のバーチャート画像の追加セットをキュレートする。
論文 参考訳(メタデータ) (2025-01-08T18:33:17Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation [19.399688660643367]
XIMAGENET-12は、200K以上の画像と15,410のマニュアルセマンティックアノテーションで構成されている。
本研究では、ロバスト性評価のための定量的基準を開発し、様々な条件下での視覚モデルの性能の微妙な理解を可能にする。
論文 参考訳(メタデータ) (2023-10-12T10:17:40Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。