論文の概要: Learning from the Irrecoverable: Error-Localized Policy Optimization for Tool-Integrated LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.09598v1
- Date: Tue, 10 Feb 2026 09:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.482246
- Title: Learning from the Irrecoverable: Error-Localized Policy Optimization for Tool-Integrated LLM Reasoning
- Title(参考訳): 発見不能から学ぶ:ツール付きLDM推論における誤り局所化ポリシー最適化
- Authors: Qiao Liang, Yuke Zhu, Chao Ge, Lei Yang, Ying Shen, Bo Zheng, Sheng Guo,
- Abstract要約: 長い水平ツール統合推論軌道では、早期発見不可能な誤りが成功または失敗を決定できる。
本研究は,まず発見不可能なステップをローカライズし,それをきめ細かなクレジット代入に活用するために,ELPO(Error-Localized Policy Optimization)を提案する。
私たちのコードはまもなく公開されます。
- 参考スコア(独自算出の注目度): 36.23268783033404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-integrated reasoning (TIR) enables LLM agents to solve tasks through planning, tool use, and iterative revision, but outcome-only reinforcement learning in this setting suffers from sparse, delayed rewards and weak step-level credit assignment. In long-horizon TIR trajectories, an early irrecoverable mistake can determine success or failure, making it crucial to localize the first irrecoverable step and leverage it for fine-grained credit assignment. We propose Error-Localized Policy Optimization (ELPO), which localizes the first irrecoverable step via binary-search rollout trees under a fixed rollout budget, converts the resulting tree into stable learning signals through hierarchical advantage attribution, and applies error-localized adaptive clipping to strengthen corrective updates on the critical step and its suffix. Across TIR benchmarks in math, science QA, and code execution, ELPO consistently outperforms strong Agentic RL baselines under comparable sampling budgets, with additional gains in Pass@K and Major@K scaling, rollout ranking quality, and tool-call efficiency. Our code will be publicly released soon.
- Abstract(参考訳): ツール統合推論(TIR)により、LLMエージェントは計画、ツール使用、反復的な修正を通じてタスクを解くことができるが、この設定における結果のみの強化学習は、スパース、遅延報酬、ステップレベルの信用割当に悩まされる。
長距離TIR軌道では、早期発見不可能な誤りが成功または失敗を決定できるため、最初の発見不可能なステップをローカライズし、それをきめ細かなクレジット割り当てに活用することが重要である。
本稿では,二分探索のロールアウトツリーによる最初の発見不可能なステップを固定的なロールアウト予算の下でローカライズし,階層的優位属性による安定した学習信号に変換し,臨界ステップとその接尾辞に対する修正更新を強化するために,誤り局所化適応クリッピングを適用することを提案する。
数学、科学QA、コード実行のTIRベンチマーク全体で、ELPOは、同等のサンプリング予算の下で強力なAgentic RLベースラインを一貫して上回り、Pass@KとMajor@Kスケーリング、ロールアウトランキング品質、ツールコール効率がさらに向上している。
私たちのコードはまもなく公開されます。
関連論文リスト
- Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。
エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。
1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。
本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T11:59:25Z) - Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs [57.10533368622962]
大規模言語モデル(LLM)の自己補正は、推論性能を高める重要な要素として現れる。
本研究では,自己補正戦略の有効性を評価するためのベンチマークであるCorrectBenchを紹介する。
その結果,1) 自己補正手法は, 複雑な推論タスクにおいて, 精度を向上させることが可能であり, 2) 異なる自己補正戦略の混合により, 効率は低下するものの, さらなる改善がもたらされることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-17T02:40:19Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。