論文の概要: Every Step Counts: Step-Level Credit Assignment for Tool-Integrated Text-to-SQL
- arxiv url: http://arxiv.org/abs/2605.04719v2
- Date: Thu, 07 May 2026 02:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:06.165919
- Title: Every Step Counts: Step-Level Credit Assignment for Tool-Integrated Text-to-SQL
- Title(参考訳): すべてのステップカウント:ツールを組み込んだテキストからSQLへのステップレベルクレジットアサインメント
- Authors: Yaxun Dai, Baolin Sun, Junying Wang, Pengfei Wang, Yingqi Gao, Xuemei Dong, Mengdie Chu, Xiang Qi, Pingfu Chao,
- Abstract要約: ツール拡張テキストにおけるステップレベルクレジット代入のための新しいフレームワークであるFineStepを提案する。
FineStepは4BスケールでGRPOよりも平均3.25%向上し,最先端のパフォーマンスを実現し,冗長なツールインタラクションを低減する。
- 参考スコア(独自算出の注目度): 13.130554329857496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-integrated Text-to-SQL parsing has emerged as a promising paradigm, framing SQL generation as a sequential decision-making process interleaved with tool execution. However, existing reinforcement learning approaches mainly rely on coarse-grained outcome supervision, resulting in a fundamental credit assignment problem: models receive the same reward for any trajectory that yields the correct answer, even when intermediate steps are redundant, inefficient, or erroneous. Consequently, models are encouraged to explore suboptimal reasoning spaces, limiting both efficiency and generalization. To address this problem, we propose FineStep, a novel framework for step-level credit assignment in tool-augmented Text-to-SQL. First, we introduce a reward design with independent process rewards to alleviate the signal sparsity of outcome supervision. Next, we present a step-level credit assignment mechanism to precisely quantify the value of each reasoning step. Finally, we develop a policy optimization method based on step-level advantages for efficient updates. Extensive experiments on BIRD benchmarks show that FineStep achieves state-of-the-art performance and reduces redundant tool interactions, with a 3.25% average EX gain over GRPO at the 4B scale.
- Abstract(参考訳): ツール統合のText-to-SQL構文解析は有望なパラダイムとして登場し、ツール実行とインターリーブされたシーケンシャルな意思決定プロセスとしてSQL生成をフレーミングしている。
しかし、既存の強化学習アプローチは、主に粗大な結果の監督に依存しており、結果として基本的な信用割り当ての問題が発生する: モデルは、たとえ中間ステップが冗長で、非効率で、誤った場合であっても、正しい答えをもたらす任意の軌道に対して、同じ報酬を受ける。
その結果、モデルは最適下推論空間を探索し、効率と一般化の両方を制限することが奨励される。
この問題に対処するために,ツール拡張型Text-to-SQLにおけるステップレベルクレジット代入のための新しいフレームワークであるFineStepを提案する。
まず、独立プロセス報酬を用いた報酬設計を導入し、結果監視の信号の疎結合を緩和する。
次に、各推論ステップの値を正確に定量化するためのステップレベルの信用割当機構を提案する。
最後に、効率的な更新のためのステップレベルの利点に基づくポリシー最適化手法を開発する。
BIRDベンチマークの大規模な実験によると、FineStepは最先端のパフォーマンスを達成し、冗長なツールインタラクションを低減し、4BスケールでのGRPOよりも平均3.25%のExゲインを達成している。
関連論文リスト
- ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - MTIR-SQL: Multi-turn Tool-Integrated Reasoning Reinforcement Learning for Text-to-SQL [46.37961458768655]
大規模言語モデル (LLM) は、テキストから認識するタスクにますます使われている。
既存のメソッドは、リアルタイムエラー訂正を制限する静的な実行フィードバックに依存している。
本稿では, MTIR-IDERを提案する。
論文 参考訳(メタデータ) (2025-10-29T13:34:27Z) - HES-SQL: Hybrid Reasoning for Efficient Text-to-SQL with Structural Skeleton Guidance [6.653834890554154]
HES-は、思考モード融合型教師あり微調整の統合により、テキストからレイテンシ生成を進化させる新しいハイブリッドトレーニングフレームワークである。
このフレームワークは、クエリの精度と実行効率を改善しながら、推論モードと非推論モードの切り替えを可能にする。
論文 参考訳(メタデータ) (2025-10-10T01:15:57Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Agentar-Scale-SQL: Advancing Text-to-SQL through Orchestrated Test-Time Scaling [11.577572131517714]
最先端のSOTA (State-of-the-art) テキスト・トゥ・ザ・アーティカルな手法は、BIRDのような計算ベンチマークの挑戦に関して、人間の専門家よりかなり遅れている。
テスト時間のスケーリングを探求する現在のアプローチでは、組織化された戦略が欠如し、モデルの内部推論プロセスを無視しています。
論文 参考訳(メタデータ) (2025-09-29T07:50:02Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation [27.484259938667776]
大規模言語モデルはコード生成に優れていますが、推論を必要とする複雑なプログラミングタスクに苦労します。
本稿では,実行可能検証を活用することで,プロセスと結果の監視を統一するアウトカム・リフィニング・プロセス・スーパービジョンを紹介する。
5つのモデルと3つのベンチマークによる実験では、26.9%の精度でコード効率が42.2%向上した。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。