論文の概要: TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
- arxiv url: http://arxiv.org/abs/2510.06217v1
- Date: Tue, 07 Oct 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.418129
- Title: TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
- Title(参考訳): TaTToo: タブラリ推論におけるテスト時間スケーリングのためのツール群思考型PRM
- Authors: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He,
- Abstract要約: TaTTooは、ツールベースの検証を統合し、正確な報酬管理を提供する新しいテーブルグラウンドのPRMフレームワークである。
私たちはTTTooを2段階のパラダイムでトレーニングします。ツール使用推論パターンをキャプチャするために、コールドスタートの教師による微調整を行い、続いて強化学習を行い、私たちのモデルをテーブルベースの検証と整合させます。
- 参考スコア(独自算出の注目度): 77.01182934427095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process Reward Models (PRMs) have recently emerged as a powerful framework for enhancing the reasoning capabilities of large reasoning models (LRMs), particularly in the context of test-time scaling (TTS). However, their potential for supervising LRMs on tabular reasoning domains remains underexplored. Through detailed empirical analyses, we identify that existing PRMs, though widely adopted for supervising text-only reasoning steps, struggle with table-specific operations such as sub-table retrieval and schema interaction, leading to critical performance bottlenecks. To address this limitation, we propose TaTToo, a novel table-grounded PRM framework that (i) reasons explicitly over tabular reasoning steps and (ii) integrates tool-based verification to provide precise reward supervision. Concretely, we first design a scalable data curation pipeline that constructs over 60k high-quality step-level annotations by integrating table verification rationales with tool-based executions. Building on the collected data, we train TaTToo with a dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use reasoning patterns, followed by reinforcement learning with tool-grounded reward shaping to align our model with table-based verification. We provide a comprehensive evaluation of the policy improvement induced by our newly designed PRM. Across 5 challenging tabular reasoning benchmarks covering numerical reasoning, fact-checking, and data analysis, TaTToo improves downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong generalizability across diverse TTS strategies.
- Abstract(参考訳): Process Reward Models(PRM)は、特にテスト時間スケーリング(TTS)の文脈において、大きな推論モデル(LRM)の推論能力を高める強力なフレームワークとして最近登場した。
しかし、表の推論領域上でのLEMの監視の可能性はいまだに未解明である。
実験的な分析により、既存のPRMはテキストのみの推論ステップを監督するために広く採用されているが、サブテーブル検索やスキーマ相互作用といったテーブル固有の操作に苦しむため、重要なパフォーマンスボトルネックが生じることが分かった。
この制限に対処するため,新しいテーブルグラウンドPRMフレームワークであるTaTTooを提案する。
一 表計算上の理由及び理由
(II) ツールベースの検証を統合し、正確な報酬管理を行う。
具体的には、テーブル検証の合理性とツールベースの実行を統合することで、60k以上の高品質なステップレベルのアノテーションを構築するスケーラブルなデータキュレーションパイプラインを最初に設計する。
収集したデータに基づいて、TTTooを2段階のパラダイムでトレーニングする: ツール使用推論パターンを捉えるために、コールドスタートの教師による微調整、そして、ツール接地型報酬整形による強化学習により、モデルをテーブルベースの検証と整合させる。
新たに設計したPRMによる政策改善の包括的評価を行う。
数値推論、ファクトチェック、データ分析に関する5つの挑戦的な表式推論ベンチマークにおいて、TaTTooは推論時に下流ポリシーのLEMを30.9%改善し、Qwen-2.5-Math-PRM-72Bのような強力なPRMベースラインをわずか8Bパラメータで上回り、様々なTS戦略における強力な一般化性を示している。
関連論文リスト
- CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。
既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。
我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文 参考訳(メタデータ) (2025-10-05T13:38:31Z) - TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Table-R1: Inference-Time Scaling for Table Reasoning [56.812846737424245]
推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
論文 参考訳(メタデータ) (2025-05-29T16:28:50Z) - Reward-SQL: Boosting Text-to-SQL via Stepwise Reasoning and Process-Supervised Rewards [25.810871864483076]
外的プロセス・リワード・モデル(PRM)は、微粒な監督を提供するために訓練中に導入することができる。
本稿では,テキスト・ツー・ザ・ライティング・プロセスにPRMを効果的に組み込む方法について検討するフレームワークであるReward-BIRDを提案する。
論文 参考訳(メタデータ) (2025-05-07T08:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。