論文の概要: StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.27140v1
- Date: Tue, 26 May 2026 15:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.361626
- Title: StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning
- Title(参考訳): StepOPSD:エージェント強化学習のためのステップアウェアオンライン選好蒸留
- Authors: Yanfei Zhang, Xu Lin, Chenglin Wu,
- Abstract要約: 本稿では,ロールアウト後の自己蒸留フレームワークであるStepOPSDについて紹介する。
StepOPSDは、軌跡をアクション中心のステップセグメントに分解し、後見豊かな教師コンテキスト下でそれらを再構成する。
より小さい_clipは広範囲に安定化された局所信頼領域として作用するが、最適な大域混合強度_mixはタスク依存のままである。
- 参考スコア(独自算出の注目度): 6.365332042924078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning for multi-turn agents suffers from a credit-assignment mismatch: rewards are sparse and trajectory-level, while success often hinges on a few local decisions. Existing online policy distillation (OPD) provides denser token-level supervision, but typically treats heterogeneous agent trajectories as monolithic strings rather than causal interaction units. We present StepOPSD, a post-rollout preference self-distillation framework that takes the agent step as the unit of credit redistribution. StepOPSD decomposes trajectories into action-centered step segments, rescoring them under hindsight-enriched teacher contexts and converting token-level log-probability gaps into sign-preserving advantage shaping with a normalized per-step credit budget before the GRPO update. Across ALFWorld and Search-QA with Qwen3-1.7B and Qwen2.5-3B-Instruct, StepOPSD attains best or second-best results on subsets most sensitive to local causal errors, including first-place performance on ALFWorld Heat (79.1%), PickTwo (95.0%), Search-QA TriviaQA (61.6%), and tied-best performance on HotpotQA (40.4%). The results further reveal a consistent two-knob law: smaller α_clip acts as a broadly stabilizing local trust region, whereas the optimal global mixing strength λ_mix remains task-dependent. These findings suggest that step-aware distillation is most useful when trajectory-level rewards are weakly aligned with the local action that determines downstream success.
- Abstract(参考訳): マルチターンエージェントの強化学習は、クレジット・アサインメントのミスマッチに悩まされる:報酬はスパースでトラジェクトリレベルであり、成功はしばしばいくつかの地元の決定に影響を及ぼす。
既存のオンライン政策蒸留(OPD)は、より密集したトークンレベルの監督を提供するが、通常、不均一なエージェントの軌跡を因果的相互作用単位ではなくモノリシック文字列として扱う。
本稿では,ロールアウト後の自己蒸留フレームワークであるStepOPSDについて紹介する。
StepOPSDは、トラジェクトリをアクション中心のステップセグメントに分解し、後向きの教師コンテキスト下でそれらを再構成し、トークンレベルのログ確率ギャップを、GRPO更新の前に正規化されたステップ単位のクレジット予算で、サイン保存可能なアドバンテージ整形に変換する。
Qwen3-1.7B と Qwen2.5-3B による ALFWorld と Search-QA 全体では、StepOPSD は ALFWorld Heat (79.1%)、PickTwo (95.0%)、Search-QA TriviaQA (61.6%)、HotpotQA (40.4%) などの局所因果誤差に最も敏感なサブセットに対して、最高の、または第二のベストな結果を得た。
より小さいα_clipは広く安定化された局所信頼領域として作用するが、最適な大域混合強度 λ_mix はタスク依存のままである。
これらの結果から, 軌道レベルの報酬が下流の成功を決定づける局所的な行動と弱く一致している場合, ステップアウェア蒸留が最も有用であることが示唆された。
関連論文リスト
- PAIR: Prefix-Aware Internal Reward Model for Multi-Turn Agent Optimization [20.910779784518798]
グループ相対的政策最適化(GRPO)は、主要な選択肢として浮上しているが、緩やかな成果報酬への依存は、中間段階にわたる信用割当を著しく制限している。
そこで本研究では,凍結型隠れ状態プローブを用いた2段階モデルを提案する。
実験の結果, PAIRは汚染された軌道上では最も高いAUROCを達成でき, 予測コストは無視できることがわかった。
論文 参考訳(メタデータ) (2026-05-18T05:39:30Z) - PiCA: Pivot-Based Credit Assignment for Search Agentic Reinforcement Learning [11.926589875842359]
大言語モデル(LLM)に基づく検索エージェントは,知識集約型タスクの性能を大幅に向上させた。
既存の手法は、長期信用割り当てにおいて重要な課題に直面する。
累積探索の逐次過程として探索軌道を再構成するPivot-Based Credit Assignment (PiCA)を提案する。
論文 参考訳(メタデータ) (2026-05-10T03:21:47Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - Prune-Then-Plan: Step-Level Calibration for Stable Frontier Exploration in Embodied Question Answering [52.69447404069251]
大規模視覚言語モデル(VLM)は、オープン語彙推論のための強力なセマンティック先行情報を提供することにより、EQAエージェントの改良を行った。
ステップレベルキャリブレーションによる探索を安定化するフレームワークPrune-Then-Planを提案する。
論文 参考訳(メタデータ) (2025-11-24T22:50:50Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。