論文の概要: RTMC: Step-Level Credit Assignment via Rollout Trees
- arxiv url: http://arxiv.org/abs/2604.11037v1
- Date: Mon, 13 Apr 2026 06:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.356363
- Title: RTMC: Step-Level Credit Assignment via Rollout Trees
- Title(参考訳): RTMC:ロールアウトツリーによるステップレベルクレジットアサインメント
- Authors: Tao Wang, Suhang Zheng, Xiaoxiao Xu,
- Abstract要約: RTMC(Rollout-Tree Monte Carlo)の利点について述べる。
SWE-bench Verifiedでは、RTMCはGRPOよりもパス@1を3.2ポイント改善している。
- 参考スコア(独自算出の注目度): 6.813908435773822
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-step agentic reinforcement learning benefits from fine-grained credit assignment, yet existing approaches offer limited options: critic-free methods like GRPO assign a uniform advantage to every action in a trajectory, while learned value networks introduce notable overhead and can be fragile under sparse rewards. We observe that group rollouts targeting the same problem often traverse overlapping intermediate states, implicitly forming a tree whose branches diverge at successive decision points. Building on this insight, we introduce Rollout-Tree Monte Carlo (RTMC) advantage estimation, which aggregates return statistics across rollouts sharing a common state to produce per-step Q-values and advantages--without any learned critic. A state-action signature system compresses raw interaction histories into compact, comparable representations, making cross-rollout state matching tractable. On SWE-bench Verified, RTMC improves pass@1 by 3.2 percentage points over GRPO.
- Abstract(参考訳): GRPOのような批判のない手法は、軌道上のすべてのアクションに対して均一なアドバンテージを割り当て、学習された価値ネットワークは顕著なオーバーヘッドを導入し、スパース報酬の下で脆弱である。
我々は、同じ問題を対象とするグループロールアウトが、しばしば重なり合う中間状態を横断し、枝が連続する決定点で分岐する木を暗黙的に形成するのを観察した。
この洞察に基づいて、ロールアウト・トレー・モンテカルロ(RTMC)の利点推定を導入し、ロールアウト全体でのリターン統計を集約し、共通の状態を共有し、ステップごとのQ値とアドバンテージを生成します。
状態-作用シグネチャシステムは、生の相互作用履歴をコンパクトで同等な表現に圧縮し、クロスロール状態マッチングが可能である。
SWE-bench Verifiedでは、RTMCはGRPOよりもパス@1を3.2ポイント改善している。
関連論文リスト
- Reason in Chains, Learn in Trees: Self-Rectification and Grafting for Multi-turn Agent Policy Optimization [10.86007023031758]
大規模言語モデルエージェントの強化学習は、多段階推論タスクにおけるスパース報酬によって妨げられることが多い。
本稿では,T-STARを提案する。T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T-STAR,T- STAR,T-STAR,T-STAR,
論文 参考訳(メタデータ) (2026-04-08T14:55:29Z) - Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents [24.080021799509847]
textscEvalAct (Evaluate-as-Action) は暗黙的な検索品質評価を明示的なアクションに変換する。
textscEvalActは、マルチホップタスクにおいて最も高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-03-10T05:22:40Z) - MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching [60.886768806064936]
Tool-Integrated Reasoningは、外部ツールのインタラクションと推論ステップをインターリーブすることで、大規模な言語モデルで複雑なタスクに対処することを可能にする。
既存の強化学習法は、結果や軌道レベルの報酬に依存し、軌道内のすべてのステップに一様の利点を割り当てる。
両部間マッチングに基づくターンレベルの報酬割当と二重レベルの優位性推定によるきめ細かい監視を実現するフレームワークであるMatchTIRを提案する。
論文 参考訳(メタデータ) (2026-01-15T18:59:23Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。