論文の概要: Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
- arxiv url: http://arxiv.org/abs/2509.07966v1
- Date: Tue, 09 Sep 2025 17:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.430845
- Title: Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
- Title(参考訳): Visual-TableQA: テーブルイメージ上の推論のためのオープンドメインベンチマーク
- Authors: Boammani Aser Lompo, Marc Haraoui,
- Abstract要約: Visual-TableQAは、複雑なデータに対する視覚的推論を評価し、拡張するために設計された、大規模でオープンなドメインデータセットである。
Visual-TableQAは2.5kのリッチな構造化されたテーブルと6kの推論集約型QAペアで構成され、いずれもUSD 100以下のコストで生産される。
- 参考スコア(独自算出の注目度): 0.42970700836450476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reasoning over structured data such as tables is a critical capability for modern vision-language models (VLMs), yet current benchmarks remain limited in scale, diversity, or reasoning depth, especially when it comes to rendered table images. Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data. Our generation pipeline is modular, scalable, and fully autonomous, involving multiple reasoning LLMs collaborating across distinct roles: generation, validation, and inspiration. Visual-TableQA comprises 2.5k richly structured LaTeX-rendered tables and 6k reasoning-intensive QA pairs, all produced at a cost of under USD 100. To promote diversity and creativity, our pipeline performs multi-model collaborative data generation via cross-model prompting ('inspiration') and LLM-jury filtering. Stronger models seed layouts and topics that weaker models elaborate, collectively distilling diverse reasoning patterns and visual structures into the dataset. Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature. The full pipeline and resources are publicly available at https://github.com/AI-4-Everyone/Visual-TableQA.
- Abstract(参考訳): テーブルのような構造化データに対する視覚的推論は、現代の視覚言語モデル(VLM)にとって重要な機能であるが、現在のベンチマークはスケール、多様性、推論の深さに制限されている。
このギャップに対処するために、複雑な表データに対する視覚的推論を評価し、拡張するために設計された、大規模でオープンドメインのマルチモーダルデータセットであるVisual-TableQAを導入する。
私たちの生成パイプラインはモジュール化され、スケーラブルで、完全に自律的です。
Visual-TableQAは2.5kのLaTeXレンダリングテーブルと6kの推論集約QAペアで構成され、いずれもUSD 100以下のコストで製造される。
多様性と創造性を促進するため,我々のパイプラインはクロスモデル・プロンプト(「吸入」)とLCM・ジュリー・フィルタリングによる複数モデル協調データ生成を行う。
より強力なモデルのシードレイアウトとトピックは、より精巧なモデルより弱く、さまざまな推論パターンと視覚構造を集合的にデータセットに抽出する。
実証的な結果から、Visual-TableQAで微調整されたモデルは、外部ベンチマークに対して堅牢に一般化され、データセットの合成特性にもかかわらず、いくつかのプロプライエタリなモデルよりも優れていることが示されている。
完全なパイプラインとリソースはhttps://github.com/AI-4-Everyone/Visual-TableQAで公開されている。
関連論文リスト
- LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiXは構造化データを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル間特徴比の幅の広い10種類の大規模構造化データベンチマークを対象に,LimiXの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis [16.572608600078922]
RealHiTBenchは、様々な入力フォーマットにわたるLarge Language Models (LLM)のパフォーマンスを評価するために設計されたベンチマークである。
LLMを25個使用した実験の結果,RealHiTBenchは本当に難しいベンチマークであることがわかった。
また、階層的なヘッダをツリー構造に整理するツリーベースのパイプラインであるTreeThinkerも開発しています。
論文 参考訳(メタデータ) (2025-06-16T12:19:08Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning [40.95790862132066]
MMTBENCH (MMTBENCH) は、様々な実世界の情報源から描画される500の実世界のマルチモーダルテーブルからなるベンチマークである。
MMTBENCH の質問は、4つの質問タイプ (Explicit, Implicit, Answer Mention, Visual Based)、5つの推論タイプ (Mathematical, Extrema Identification, Fact Verification, Vision Based, etcs)、8つのテーブルタイプをカバーしている。
論文 参考訳(メタデータ) (2025-05-27T21:09:11Z) - GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。
GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。
テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。
25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2025-02-26T05:32:45Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。