論文の概要: Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.07165v1
- Date: Wed, 08 Apr 2026 14:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.593194
- Title: Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization
- Title(参考訳): チェーンの推論, ツリーの学習:多ターンエージェント最適化のための自己修正とグラフト
- Authors: Yu Li, Sizhe Tang, Tian Lan,
- Abstract要約: 大規模言語モデルエージェントの強化学習は、多段階推論タスクにおけるスパース報酬によって妨げられることが多い。
本稿では,T-STARを提案する。T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T- STAR,T-STAR,T-STAR,
- 参考スコア(独自算出の注目度): 10.86007023031758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning for Large Language Model agents is often hindered by sparse rewards in multi-step reasoning tasks. Existing approaches like Group Relative Policy Optimization treat sampled trajectories as independent chains, assigning uniform credit to all steps in each chain and ignoring the existence of critical steps that may disproportionally impact reasoning outcome. In this paper, we propose T-STAR(Tree-structured Self-Taught Agent Rectification), a framework that recovers the latent correlated reward structure across seemingly independent trajectories. Specifically, we consolidate trajectories into a unified Cognitive Tree by identifying and merging functionally similar steps/nodes. It enables an Introspective Valuation mechanism that back-propagates trajectory-level rewards through the tree to obtain a new notion of variance-reduced relative advantage at step-level. Using the Cognitive Tree, we also develop In-Context Thought Grafting to synthesize corrective reasoning by contrasting successful and failed branches at critical divergence points/steps. Our proposed Surgical Policy Optimization then capitalizes on the rich policy gradient information concentrated at these critical points/steps through a Bradley-Terry type of surgical loss. Extensive experiments across embodied, interactive, reasoning, and planning benchmarks demonstrate that T-STAR achieves consistent improvements over strong baselines, with gains most pronounced on tasks requiring extended reasoning chains.
- Abstract(参考訳): 大規模言語モデルエージェントの強化学習は、多段階推論タスクにおけるスパース報酬によって妨げられることが多い。
グループ相対政策最適化のような既存のアプローチでは、サンプリングされた軌道を独立した連鎖として扱い、各連鎖のすべてのステップに均一なクレジットを割り当て、推論結果に不均等に影響を及ぼす可能性のある臨界ステップの存在を無視している。
本稿では,T-STAR(Tree-structured Self-Taught Agent Rectification)を提案する。
具体的には、機能的に類似したステップ/ノードを特定し、マージすることで、トラジェクトリを統合認知木に統合する。
木を通して軌道レベルの報酬をバックプロパゲートするイントロスペクティブ・バリュエーション(Introspective Valuation)機構が実現され、ステップレベルでの分散還元相対的優位性という新たな概念が得られる。
また,コグニティブツリーを用いて,重要な分岐点/ステップにおける成功枝と失敗枝を対比することにより,修正推論を合成するインコンテクスト思考グラフトを開発する。
提案した手術方針最適化は,Bradley-Terry型の手術的損失を通じて,これらの重要なポイント/ステップに集中したリッチな方針勾配情報を活用する。
T-STARは強力なベースラインよりも一貫した改善を達成し、拡張された推論チェーンを必要とするタスクで最も顕著に得られることを示す。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling [29.182538022605627]
Branching Relative Policy Optimization (BranPO) は、高額な報酬なしで段階レベルのコントラスト管理を提供する価値のない手法である。
BranPOは尾部付近の軌跡を切断し、他の連続をサンプリングし、共有接頭辞の上に対照的な接尾辞を構成する。
さらに効率を向上し、トレーニングを安定させるために、タスク間の分岐周波数に適応する難易度分岐サンプリングと、不正な動作を抑制するために冗長なステップマスキングを導入する。
論文 参考訳(メタデータ) (2026-02-03T16:43:09Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Know your Trajectory -- Trustworthy Reinforcement Learning deployment through Importance-Based Trajectory Analysis [6.7842735984907465]
我々は、新しい状態重要度を定義・集約することで、軌道全体のランク付けを行う新しい枠組みを導入する。
本研究では,エージェント体験の異種集合から最適軌跡の同定に成功していることを示す。
標準のOpenAI Gym環境における実験により,提案する重要度指標が最適行動の同定に有効であることが検証された。
論文 参考訳(メタデータ) (2025-12-07T16:52:08Z) - Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。