論文の概要: Enhancing TableQA through Verifiable Reasoning Trace Reward
- arxiv url: http://arxiv.org/abs/2601.22530v1
- Date: Fri, 30 Jan 2026 04:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.210983
- Title: Enhancing TableQA through Verifiable Reasoning Trace Reward
- Title(参考訳): 検証可能なトレースリワードによるテーブルQAの強化
- Authors: Tung Sum Thomas Kwok, Xinyu Wang, Hengzhi He, Xiaofeng Lin, Peng Lu, Liheng Ma, Chunhe Wang, Ying Nian Wu, Lei Ding, Guang Cheng,
- Abstract要約: 本稿では,軽量でトレーニング不要な報酬モデリングによる軌道探索をアーキテクチャ的に強化するRE-Tabについて紹介する。
状態遷移(ベストアクションとは何か?)」と「シミュレーティブ推論(私はアウトプットについて確実か?」)の間に明確な検証可能な報酬を提供することが、エージェントのナビゲーションをテーブル状態で操作するために重要であることを実証する。
RE-Tabの直接プラグアンドプレイ実装では、QA精度が41.77%向上し、一貫した回答のためにテスト時間推論サンプルが33.33%減少した。
- 参考スコア(独自算出の注目度): 38.96476258377461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in training TableQA agents, compared to standard text- and image-based agents, is that answers cannot be inferred from a static input but must be reasoned through stepwise transformations of the table state, introducing multi-step reasoning complexity and environmental interaction. This leads to a research question: Can explicit feedback on table transformation action improve model reasoning capability? In this work, we introduce RE-Tab, a plug-and-play framework that architecturally enhances trajectory search via lightweight, training-free reward modeling by formulating the problem as a Partially Observable Markov Decision Process. We demonstrate that providing explicit verifiable rewards during State Transition (``What is the best action?'') and Simulative Reasoning (``Am I sure about the output?'') is crucial to steer the agent's navigation in table states. By enforcing stepwise reasoning with reward feedback in table transformations, RE-Tab achieves state-of-the-art performance in TableQA with almost 25\% drop in inference cost. Furthermore, a direct plug-and-play implementation of RE-Tab brings up to 41.77% improvement in QA accuracy and 33.33% drop in test-time inference samples for consistent answer. Consistent improvement pattern across various LLMs and state-of-the-art benchmarks further confirms RE-Tab's generalisability. The repository is available at https://github.com/ThomasK1018/RE_Tab .
- Abstract(参考訳): 標準的なテキストおよび画像ベースのエージェントと比較して、TableQAエージェントをトレーニングする際の大きな課題は、答えは静的入力から推論することはできないが、テーブル状態の段階的変換によって、多段階の推論複雑性と環境相互作用を導入する必要があることである。
テーブル変換アクションに対する明確なフィードバックは、モデルの推論能力を改善することができるか?
本稿では,この問題を部分的に観測可能なマルコフ決定プロセスとして定式化することにより,軽量でトレーニング不要な報酬モデリングによる軌道探索をアーキテクチャ的に強化するRE-Tabを紹介する。
我々は、状態遷移(```最高のアクションは?')とシミュレーティブ推論(```Am I sure about the output?')の間に明確な検証可能な報酬を提供することが、エージェントのナビゲーションをテーブル状態で操作するために重要であることを実証する。
テーブル変換における報酬フィードバックによる段階的推論によって、RE-Tabは、ほぼ25%の推論コストで、TableQAの最先端のパフォーマンスを達成する。
さらに、RE-Tabの直接プラグアンドプレイ実装では、QAの精度が41.77%向上し、一貫した回答のためのテスト時間推論サンプルが33.33%減少した。
様々なLSMと最先端ベンチマークの一貫性のある改善パターンは、RE-Tabの一般化性をさらに裏付ける。
リポジトリはhttps://github.com/ThomasK1018/RE_Tab で公開されている。
関連論文リスト
- CoReTab: Improving Multimodal Table Understanding with Code-driven Reasoning [14.419739466403172]
MMTabのような既存のマルチモーダルテーブル理解のためのデータセットは、主に、明示的なマルチステップ推論の監督なしに、短い事実回答を提供する。
スケーラブルで解釈可能で、自動検証可能なアノテーションを生成するコード駆動推論フレームワークであるCoReTabを紹介します。
我々は、テーブル質問応答、事実検証、テーブル構造理解にまたがる17のMMTabベンチマークにおいて、CoReTabでトレーニングされた結果のモデルを評価する。
論文 参考訳(メタデータ) (2026-01-27T04:49:30Z) - ReasonTabQA: A Comprehensive Benchmark for Table Question Answering from Real World Industrial Scenarios [42.9161992743627]
本稿では、エネルギーや自動車といった30の産業領域にまたがる1,932のテーブルを含む大規模バイリンガルベンチマークであるReasonTabQAを紹介する。
また、テーブル認識による検証可能な報酬を利用して論理的推論経路を生成する強化学習手法であるTabCodeRLを導入する。
論文 参考訳(メタデータ) (2026-01-12T07:36:06Z) - TableZoomer: A Collaborative Agent Framework for Large-scale Table Question Answering [26.00027389659854]
TableZoomerは、テーブル質問応答(TQA)タスクのためのプログラミングベースのエージェントフレームワークである。
2)列選択とエンティティリンクを通じてサブテーブルスキーマを動的に生成するクエリ対応テーブルズーム機構,(3)クエリを実行可能なコードに変換するプログラム・オブ・ソート(PoT)戦略により,数値幻覚を緩和する。
論文 参考訳(メタデータ) (2025-09-01T09:53:01Z) - ExpliCIT-QA: Explainable Code-Based Image Table Question Answering [0.157286095422595]
ExpliCIT-QA は,(1) テーブルイメージからコンテンツを抽出し変換するためのマルチモーダルテーブル理解,(2) 自然言語によるステップバイステップの説明を生成する言語ベースの推論,(3) 推論ステップに基づいてPython/Pandas スクリプトを生成する自動コード生成,(4) 最終回答の計算のためのコード実行,(5) 答の計算方法を記述した自然言語説明,からなるモジュール設計に従っている。
この戦略は、エンドツーエンドテーブルにおける説明可能性ギャップの解消に有効である
論文 参考訳(メタデータ) (2025-07-15T19:51:24Z) - RAG over Tables: Hierarchical Memory Index, Multi-Stage Retrieval, and Benchmarking [63.253294691180635]
現実世界のシナリオでは、純粋なテキスト以外では、かなりの量の知識がテーブルに格納される。
まず、階層型メモリインデックス、多段階検索、グラフ認識プロンプトからなるテーブルコーパス対応RAGフレームワークT-RAGを提案する。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。