論文の概要: MAD-OPD: Breaking the Ceiling in On-Policy Distillation via Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2605.01347v1
- Date: Sat, 02 May 2026 09:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.720109
- Title: MAD-OPD: Breaking the Ceiling in On-Policy Distillation via Multi-Agent Debate
- Title(参考訳): MAD-OPD:多剤によるオンライン蒸留における焼成の破壊
- Authors: Jianze Wang, Ying Liu, Jinlong Chen, Xuchun Hu, Qilong Zhang, Yu Cao, Jun Wang, Hua Yang, Yong Xie, Qianglong Chen,
- Abstract要約: そこで我々は,MAD-OPD (Multi-Agent Debate-driven On-Policy Distillation)を提案する。
また,多段誤差合成によるトレーニングを安定させるために,ステップレベルサンプリングを付加したOPAD(On-Policy Agentic Distillation)を導入する。
- 参考スコア(独自算出の注目度): 17.31967380175203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) trains a student on its own trajectories under token-level teacher supervision, but existing methods are capped by a single-teacher capability ceiling: when the teacher errs, the student inherits the error. OPD also remains largely unexplored in agentic tasks, where per-step errors compound across long trajectories and destabilize training. We propose MAD-OPD (Multi-Agent Debate-driven On-Policy Distillation), which breaks this ceiling by recasting the distillation teacher as a deliberative collective of teachers that debate over the student's on-policy state; the debate produces an emergent collective intelligence that supplies token-level supervision, with each teacher's contribution weighted by its post-debate confidence. To extend OPD to agentic tasks, we also introduce On-Policy Agentic Distillation (OPAD), which adds step-level sampling to stabilize training under multi-step error compounding. We additionally derive a task-adaptive divergence principle, selecting JSD (Jensen-Shannon divergence) for agentic stability and reverse KL (Kullback-Leibler) divergence for code generation, and verify it both theoretically and empirically. Across six teacher-student configurations (Qwen3 and Qwen3.5; 1.7B-14B students, 8B-32B teachers) and five agentic and code benchmarks, MAD-OPD ranks first across all six configurations; on the 14B+8B$\to$4B setting it lifts the agentic average by $+2.4\%$ and the code average by $+3.7\%$ over the stronger single-teacher OPD.
- Abstract(参考訳): オンライン蒸留(On-policy distillation、OPD)は、トークンレベルの教師監督の下で生徒を自身の軌道で訓練するが、既存の方法は、教師が過ちを犯すと、生徒はエラーを継承する。
OPDは、長い軌道にまたがるステップ毎のエラーが複雑化し、訓練を不安定化するという、エージェント的なタスクにおいても、ほとんど探索されていない。
本稿は, 学生の政治状況について議論する教師の討論的集合体として, 蒸留教師をリキャストすることで, この天井を打破するMAD-OPD(Multi-Agent Debate-driven On-Policy Distillation)を提案する。
OPDをエージェントタスクに拡張するために、多段階のエラー合成によるトレーニングを安定させるために、ステップレベルのサンプリングを追加するOn-Policy Agentic Distillation (OPAD)を導入する。
さらに、エージェント安定性のための JSD (Jensen-Shannon divergence) とコード生成のための逆KL (Kullback-Leibler) を選定し、理論的にも経験的にも検証するタスク適応分散原理を導出する。
6つの教師学生構成(Qwen3とQwen3.5、学生1.7B-14B、教師8B-32B)と5つのエージェントおよびコードベンチマークのうち、MAD-OPDは6つの構成すべてで1位、14B+8B$\to$4B設定ではエージェント平均が+2.4\%、コード平均が+3.7\%である。
関連論文リスト
- TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting [17.504616835765617]
両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-12T15:26:14Z) - Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents [24.99615788156812]
Skill-SDはエージェント自身の軌道を動的トレーニングのみの監視に変換するフレームワークである。
我々は, 重み付き逆KL損失を導出し, 勾配補正型トークンレベルの蒸留を行った。
エージェントベンチマークの実験結果は、Skill-SDが標準RLベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-04-12T14:57:52Z) - Reinforcement-aware Knowledge Distillation for LLM Reasoning [63.53679456364683]
強化学習(Reinforcement Learning, RL)ポストトレーニングは、最近、大型言語モデル(LLM)の長いチェーン・オブ・プリーティングにおいて、進歩をもたらした。
既存の知識蒸留法の多くは、教師による微調整(SFT)のために設計されており、固定された教師のトレースや教師の学生であるKulback-Leibler(KL)の発散に基づく正規化に依存している。
本稿では,RLにおける選択的な模倣を行うRL-aware distillation (RLAD)を提案する。
論文 参考訳(メタデータ) (2026-02-26T00:20:39Z) - Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。