論文の概要: CoReTab: Improving Multimodal Table Understanding with Code-driven Reasoning
- arxiv url: http://arxiv.org/abs/2601.19193v1
- Date: Tue, 27 Jan 2026 04:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.178602
- Title: CoReTab: Improving Multimodal Table Understanding with Code-driven Reasoning
- Title(参考訳): CoReTab: コード駆動推論によるマルチモーダルテーブル理解の改善
- Authors: Van-Quang Nguyen, Takayuki Okatani,
- Abstract要約: MMTabのような既存のマルチモーダルテーブル理解のためのデータセットは、主に、明示的なマルチステップ推論の監督なしに、短い事実回答を提供する。
スケーラブルで解釈可能で、自動検証可能なアノテーションを生成するコード駆動推論フレームワークであるCoReTabを紹介します。
我々は、テーブル質問応答、事実検証、テーブル構造理解にまたがる17のMMTabベンチマークにおいて、CoReTabでトレーニングされた結果のモデルを評価する。
- 参考スコア(独自算出の注目度): 14.419739466403172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing datasets for multimodal table understanding, such as MMTab, primarily provide short factual answers without explicit multi-step reasoning supervision. Models trained on these datasets often generate brief responses that offers insufficient accuracy and limited interpretability into how these models arrive at the final answer. We introduce CoReTab, a code-driven reasoning framework that produces scalable, interpretable, and automatically verifiable annotations by coupling multi-step reasoning with executable Python code. Using the CoReTab framework, we curate a dataset of 115K verified samples averaging 529 tokens per response and fine-tune open-source MLLMs through a three-stage pipeline. We evaluate the resulting model trained on CoReTab across 17 MMTab benchmarks spanning table question answering, fact verification, and table structure understanding. Our model achieves significant gains of +6.2%, +5.7%, and +25.6%, respectively, over MMTab-trained baselines, while producing transparent and verifiable reasoning traces. These results establish CoReTab as a robust and generalizable supervision framework for improving multi-step reasoning in multimodal table understanding.
- Abstract(参考訳): MMTabのような既存のマルチモーダルテーブル理解のためのデータセットは、主に、明示的なマルチステップ推論の監督なしに、短い事実回答を提供する。
これらのデータセットでトレーニングされたモデルは、しばしば短い応答を生成し、これらのモデルが最終回答に到達する方法に関して、不十分な正確さと限定的な解釈性を提供する。
CoReTabは、スケーラブルで解釈可能で、自動検証可能なアノテーションを生成するコード駆動推論フレームワークである。
CoReTabフレームワークを使用して、115Kの検証済みサンプルのデータセットを3段階のパイプラインを通じて平均529のトークンと微調整のオープンソースMLLMをキュレートする。
我々は、テーブル質問応答、事実検証、テーブル構造理解にまたがる17のMMTabベンチマークにおいて、CoReTabでトレーニングされた結果のモデルを評価する。
このモデルでは,MMTabをトレーニングしたベースラインに対して,透過的および検証可能な推論トレースを生成しながら,+6.2%,+5.7%,+25.6%の有意な増加を実現している。
これらの結果は、マルチモーダルテーブル理解における多段階推論を改善するための堅牢で一般化可能な監視フレームワークとしてCoReTabを確立している。
関連論文リスト
- ReasonTabQA: A Comprehensive Benchmark for Table Question Answering from Real World Industrial Scenarios [42.9161992743627]
本稿では、エネルギーや自動車といった30の産業領域にまたがる1,932のテーブルを含む大規模バイリンガルベンチマークであるReasonTabQAを紹介する。
また、テーブル認識による検証可能な報酬を利用して論理的推論経路を生成する強化学習手法であるTabCodeRLを導入する。
論文 参考訳(メタデータ) (2026-01-12T07:36:06Z) - TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data [10.798423317852288]
TabDSRは,(1)複雑な質問を分解するクエリデコンパイラ,(2)ノイズの多いテーブルを浄化・フィルタリングするテーブルサニタイザ,(3)プログラム・オブ・シークレット(PoT)ベースの推論器からなるフレームワークである。
テーブル上の複雑な数値推論のために特別に設計された新しいデータセットであるCalTab151を導入する。
TAT-QA, TableBench, TabDSRの精度は8.79%, 6.08%, 19.87%向上した。
論文 参考訳(メタデータ) (2025-11-04T03:13:02Z) - ExpliCIT-QA: Explainable Code-Based Image Table Question Answering [0.157286095422595]
ExpliCIT-QA は,(1) テーブルイメージからコンテンツを抽出し変換するためのマルチモーダルテーブル理解,(2) 自然言語によるステップバイステップの説明を生成する言語ベースの推論,(3) 推論ステップに基づいてPython/Pandas スクリプトを生成する自動コード生成,(4) 最終回答の計算のためのコード実行,(5) 答の計算方法を記述した自然言語説明,からなるモジュール設計に従っている。
この戦略は、エンドツーエンドテーブルにおける説明可能性ギャップの解消に有効である
論文 参考訳(メタデータ) (2025-07-15T19:51:24Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Chain-of-Table: Evolving Tables in the Reasoning Chain for Table
Understanding [79.9461269253121]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-09T07:46:26Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。