論文の概要: TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents
- arxiv url: http://arxiv.org/abs/2604.24005v1
- Date: Mon, 27 Apr 2026 03:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.723846
- Title: TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents
- Title(参考訳): TCOD:多ターン自律剤のオンライン蒸留における時間カリキュラムの探索
- Authors: Jiaqi Wang, Wenhao Zhang, Weijie Shi, Yaliang Li, James Cheng,
- Abstract要約: 我々は,多ターンエージェント設定におけるバニラOPDの鍵となる制限を同定し,これをトラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
エラーが蓄積されると、生徒は教師の効果的な支援を超えて運転され、監督信号の信頼性が低下する。
そこで本研究では,学生に露出する軌跡深度を制御する,シンプルで効果的なフレームワークであるTCODを提案する。
- 参考スコア(独自算出の注目度): 55.27396165691312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) has shown strong potential for transferring reasoning ability from frontier or domain-specific models to smaller students. While effective on static single-turn tasks, its behavior in multi-turn agent settings remains underexplored. In this work, we identify a key limitation of vanilla OPD in such settings, which we term Trajectory-Level KL Instability. Specifically, we observe that KL divergence increases together with a drop in success rate, and even after convergence, the KL remains high, leading to unstable training. This instability arises from inter-turn error compounding: as errors accumulate, the student is driven beyond the teacher's effective support, rendering the supervision signal unreliable. To address this, we propose TCOD (Temporal Curriculum On-Policy Distillation), a simple yet effective framework that controls the trajectory depth exposed to the student and progressively expands it from short to long with a curriculum schedule.Experimental results across four student-teacher pairs on three multi-turn agent benchmarks (ALFWorld, WebShop, ScienceWorld) show that TCOD mitigates KL escalation and enhances KL stability throughout training, improving agent performance by up to 18 points over vanilla OPD. Further evaluations show that TCOD can even surpass the teacher's performance and generalize to tasks on which the teacher fails.
- Abstract(参考訳): オンライン蒸留(OPD)は、フロンティアやドメイン固有モデルから小規模の学生への推論能力の移転に強い可能性を示している。
静的なシングルターンタスクでは有効だが、マルチターンエージェント設定での動作は未探索のままである。
本研究では,この条件下でバニラOPDの鍵となる制限を同定し,この制限をトラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
具体的には、KLのばらつきは成功率の低下とともに増加し、収束後もKLは高いままであり、不安定な訓練につながる。
エラーが蓄積されると、学生は教師の効果的な支援を超えて運転され、監督信号は信頼できない。
そこで本研究では,3つのマルチターンエージェントベンチマーク(ALFWorld,WebShop,ScienceWorld)において,学生と教師のペア間の実験結果から,TCODがKLエスカレーションを緩和し,学習全体を通じてKL安定性を向上し,バニラOPDよりも最大18ポイントのエージェント性能向上を実現していることを示す。
さらなる評価は、TODが教師のパフォーマンスを超え、教師が失敗するタスクに一般化できることを示している。
関連論文リスト
- Distillation Traps and Guards: A Calibration Knob for LLM Distillability [54.90137955363471]
そこで本研究では,教師の蒸留性を制御するためのポストホック校正法を提案する。
我々の目標は、タスクユーティリティ、KLアンカー、およびクロストケナイザーキャリブレーション報酬を組み合わせることである。
実験により、蒸留可能な教師から蒸留した学生は、SFTおよびKDベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-04-21T01:22:35Z) - Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents [24.99615788156812]
Skill-SDはエージェント自身の軌道を動的トレーニングのみの監視に変換するフレームワークである。
我々は, 重み付き逆KL損失を導出し, 勾配補正型トークンレベルの蒸留を行った。
エージェントベンチマークの実験結果は、Skill-SDが標準RLベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-04-12T14:57:52Z) - Demystifying OPD: Length Inflation and Stabilization Strategies for Large Language Models [35.70546523782139]
オンライン蒸留(OPD)は、より強い教師の監督を生かしながら、生徒の自給自足で生徒モデルを訓練する。
トレーニングが進むにつれて、オンラインのロールアウトは急激な長さのインフレーションを受けることができ、乱れた軌道がトレーニングデータを支配します。
この乱れ崩壊は、急激な繰り返し飽和と一致し、偏りのある勾配信号を誘導し、厳しい訓練不安定と検証性能の急激な劣化をもたらす。
本稿では, 参照型分散制約とロールアウト混合蒸留を組み合わせた安定化OPDフレームワークであるStableOPDを提案する。
論文 参考訳(メタデータ) (2026-04-09T17:58:02Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - "The Whole Is Greater Than the Sum of Its Parts": A Compatibility-Aware Multi-Teacher CoT Distillation Framework [16.96094045628127]
CoT(Chain-of-Thought)推論は、大きな言語モデル(LLM)に優れた能力を与えるが、通常は禁止的なパラメータスケールを必要とする。
CoT蒸留は、推論技術をコンパクトな学生モデル(SLM)に伝達するための有望なパラダイムとして登場した。
我々は,教師の勾配を動的に重み付けすることで,教師の指導を適応的に融合させるフレームワークCompactを紹介する。
論文 参考訳(メタデータ) (2026-01-20T14:05:19Z) - Stable On-Policy Distillation through Adaptive Target Reformulation [7.361248172930405]
ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。
ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-12T02:57:39Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。