論文の概要: Self-Distilled Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.15155v1
- Date: Thu, 14 May 2026 17:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.998673
- Title: Self-Distilled Agentic Reinforcement Learning
- Title(参考訳): 自己拡張型エージェント強化学習
- Authors: Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen,
- Abstract要約: 自己蒸留型エージェント強化学習は、トークンレベルの信号をシグモノイドゲートにマップする。
SDARはモデルスケール全体のハイブリッドRL--OPSDベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 65.24201057390938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、LLMエージェントの訓練後の中心パラダイムとして登場したが、その軌道レベルの報酬信号は、長い水平相互作用のための粗い監視のみを提供する。
On-Policy Self-Distillation (OPSD)は、特権付きコンテキストで強化された教師ブランチから高密度トークンレベルガイダンスを導入することでRLを補完する。
しかし、マルチターンエージェントへのOPSDの転送は問題となる: マルチターン不安定の複合化は監督を不安定にするが、スキル条件付き特権指導では、非対称な教師の拒否を非対称に処理する必要がある。
SDAR (Self-Distilled Agentic Reinforcement Learning) を導入し, OPSDを第1の最適化バックボーンとして, RLを維持しながら有意な補助目標として扱う。
SDARは、切り離されたトークンレベルの信号をシグマロイドゲートにマッピングし、教師が承認した正ギャップトークンの蒸留を強化し、否定的な教師の拒絶を軟らかく緩和する。
ALFWorld、WebShop、Search-QAのQwen2.5およびQwen3ファミリ全体で、SDARはGRPO(ALFWorldで+9.4%、WebShop-Accで+7.0%)よりも大幅に改善され、単純なGRPO+OPSDの不安定さを回避し、モデルスケールでのハイブリッドRL-OPSDベースラインを一貫して上回っている。
関連論文リスト
- AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning [13.755500788361815]
強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境と相互作用し、マルチターンタスクを解く能力を大幅に改善した。
既存のアプローチは、プロセス報酬モデルや補助的な自己監督信号など、密集した中間監視を導入することが多い。
本稿では、RLトレーニング中にエントロピーダイナミクスを適応的に調整し、探索・探索トレードオフを改善するための監督不要な信用割当手法であるAEMを提案する。
論文 参考訳(メタデータ) (2026-05-01T05:54:37Z) - SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting [17.504616835765617]
両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-12T15:26:14Z) - Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents [24.99615788156812]
Skill-SDはエージェント自身の軌道を動的トレーニングのみの監視に変換するフレームワークである。
我々は, 重み付き逆KL損失を導出し, 勾配補正型トークンレベルの蒸留を行った。
エージェントベンチマークの実験結果は、Skill-SDが標準RLベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-04-12T14:57:52Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。