論文の概要: Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents
- arxiv url: http://arxiv.org/abs/2604.10674v1
- Date: Sun, 12 Apr 2026 14:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.16651
- Title: Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents
- Title(参考訳): スキル-SD:多ターンLDM剤の自己蒸留技術
- Authors: Hao Wang, Guozhi Wang, Han Xiao, Yufeng Zhou, Yue Pan, Jichao Wang, Ke Xu, Yafei Wen, Xiaohu Ruan, Xiaoxin Chen, Honggang Qi,
- Abstract要約: Skill-SDはエージェント自身の軌道を動的トレーニングのみの監視に変換するフレームワークである。
我々は, 重み付き逆KL損失を導出し, 勾配補正型トークンレベルの蒸留を行った。
エージェントベンチマークの実験結果は、Skill-SDが標準RLベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 24.99615788156812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been widely used to train LLM agents for multi-turn interactive tasks, but its sample efficiency is severely limited by sparse rewards and long horizons. On-policy self-distillation (OPSD) alleviates this by providing dense token-level supervision from a privileged teacher that has access to ground-truth answers. However, such fixed privileged information cannot capture the diverse valid strategies in agent tasks, and naively combining OPSD with RL often leads to training collapse. To address these limitations, we introduce Skill-SD, a framework that turns the agent's own trajectories into dynamic training-only supervision. Completed trajectories are summarized into compact natural language skills that describe successful behaviors, mistakes, and workflows. These skills serve as dynamic privileged information conditioning only the teacher, while the student always acts under the plain task prompt and learns to internalize the guidance through distillation. To stabilize the training, we derive an importance-weighted reverse-KL loss to provide gradient-correct token-level distillation, and dynamically synchronize the teacher with the improving student. Experimental results on agentic benchmarks demonstrate that Skill-SD substantially outperforms the standard RL baseline, improving both vanilla GRPO (+14.0%/+10.9% on AppWorld/Sokoban) and vanilla OPD (+42.1%/+40.6%). Project page: https://k1xe.github.io/skill-sd/
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、多ターン対話タスクのためのLLMエージェントの訓練に広く用いられているが、そのサンプル効率はスパース報酬と長い地平線によって著しく制限されている。
On-policy Self-distillation (OPSD) は、厳密なトークンレベル管理を提供することによってこれを緩和する。
しかし、そのような固定特権情報は、エージェントタスクにおける様々な有効な戦略を捉えることができず、OPSDとRLを鼻で組み合わせることで、しばしばトレーニングの崩壊につながる。
これらの制限に対処するため、エージェント自身の軌道を動的トレーニングのみの監視に変換するフレームワークであるSkill-SDを導入する。
完成した軌跡は、成功した行動、過ち、ワークフローを記述したコンパクトな自然言語スキルに要約される。
これらのスキルは教師のみを条件付けする動的な特権情報として機能し、学生は常に通常のタスクプロンプトの下で行動し、蒸留を通じて指導を内部化することを学ぶ。
トレーニングを安定させるために, 重要度の高い逆KL損失を導出し, 勾配補正トークンレベルの蒸留を行い, 教師と改善学生を動的に同期させる。
エージェントベンチマーク実験の結果、Skill-SDは標準的なRLベースラインを大幅に上回り、バニラGRPO(AppWorld/Sokobanでは+14.0%/+10.9%)とバニラPD(+42.1%/+40.6%)の両方を改善した。
プロジェクトページ: https://k1xe.github.io/skill-sd/
関連論文リスト
- Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Reinforcement Learning Teachers of Test Time Scaling [21.551446057221185]
LMを推論する主要なユースケースは、新しい学生を蒸留し、将来のRLイテレーションを冷静に開始する教師として機能することである。
我々は,RLの探究課題を回避するために,RLT(Reinforcement-Learned Teachers)の新たなクラスを育成する枠組みを導入する。
RLTは、各問題に対する質問と解決の両方で促され、生徒に合った詳細な説明で単に「接続する」ことを任務とする。
論文 参考訳(メタデータ) (2025-06-10T02:53:24Z) - Boosting LLM Translation Skills without General Ability Loss via Rationale Distillation [31.733890798723085]
大規模言語モデル(LLM)は多くのNLPタスクにまたがって印象的な結果を得たが、それでも機械翻訳の難しさに悩まされている。
本稿では,RaDis (Rationale Distillation) と呼ばれる新しい手法を提案する。
RaDisはLLMの強力な生成能力を活用して、データトレーニングの合理性を作り、それを“再生”して、忘れることを防ぐ。
論文 参考訳(メタデータ) (2024-10-17T18:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。