論文の概要: OPRD: On-Policy Representation Distillation
- arxiv url: http://arxiv.org/abs/2606.06021v3
- Date: Tue, 09 Jun 2026 02:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.612648
- Title: OPRD: On-Policy Representation Distillation
- Title(参考訳): OPRD:On-Policy Representation Distillation
- Authors: Shenzhi Yang, Guangcheng Zhu, Bowen Song, Haobo Wang, Mingxuan Xia, Xing Zheng, Yingfan Ma, Zhongqi Chen, Weiqiang Wang, Gang Chen,
- Abstract要約: オンライン蒸留(OPD)は、次の確率に合わせて出力空間でのみ学生を監督する。
本研究では,学生と教師の表現を選択層に整列させることで,蒸留を隠れ状態空間に引き上げるOn-Policy Representation Distillation (OPRD)を提案する。
OPRD は AIME 2024/2025 と AIMO の生徒と教師のギャップを埋める。
- 参考スコア(独自算出の注目度): 30.278946794750976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) supervises the student only in output space by matching next-token probabilities. This output-only paradigm has two limits: (1) sampling variance from Monte Carlo KL estimates over large vocabularies (e.g., Qwen's ~150k tokens) persists throughout training, and (2) it treats the teacher as a black-box, discarding all intermediate hidden states after the LM head. We propose On-Policy Representation Distillation (OPRD), which lifts distillation into hidden-state space by aligning student and teacher representations across selected layers on the same rollouts, bypassing the LM head entirely. Theoretically, OPRD eliminates sampling variance and provides richer per-layer structural information. Empirically, OPRD closes the student-teacher gap on AIME 2024/2025 and AIMO, while output-space OPD baselines plateau below the teacher. OPRD also trains 1.44x faster and uses 54% less memory than top-k OPD. Code: https://github.com/ShenzhiYang2000/OPRD.
- Abstract(参考訳): オンライン蒸留(OPD)は、次の確率に合わせて出力空間でのみ学生を監督する。
このアウトプットのみのパラダイムは、(1)モンテカルロKLからのばらつきのサンプリング(例えば、Qwenの150kトークン)はトレーニングを通して継続し、(2)教師をブラックボックスとして扱い、LMヘッドの後にすべての中間隠れ状態を捨てる、という2つの限界を持つ。
そこで本研究では,学生と教師の表現を同一のロールアウト上に配置し,LMヘッドを完全にバイパスすることで,蒸留を隠れ状態空間に引き上げるOn-Policy Representation Distillation (OPRD)を提案する。
理論的には、OPRDはサンプリング分散を排除し、よりリッチな層ごとの構造情報を提供する。
OPRD は AIME 2024/2025 と AIMO の生徒と教師のギャップを埋め、出力空間 OPD は教師の下の台地を基準にしている。
OPRDは1.44倍高速で、トップkのPDより54%少ないメモリを使用する。
コード:https://github.com/ShenzhiYang2000/OPRD。
関連論文リスト
- OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification [21.095025092772257]
On-Policy Distillation (OPD)は、強力な教師からの密集したトークンレベルフィードバックの下で、生徒モデルを自身の生成軌道上で訓練する。
OmniOPDはロジットフリーでチャンクレベルの監視信号を通じて両方の制限に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2026-05-31T22:31:15Z) - Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation [81.10000755917712]
オンライン蒸留は,教師からのトークンレベルのフィードバックを用いて,学生モデルを自作の軌道上で訓練することにより,推論能力を伝達する。
生徒が生成した接頭辞が長くなるにつれて、教師の次点の分布は自信を減らし、差別性が低下する。
SFDを緩和するため, textbfLookahead Group Reward (ours) を導入する。
論文 参考訳(メタデータ) (2026-05-29T04:39:20Z) - Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation [28.572361799234784]
生のKL不一致が学習価値の粗いプロキシであることを示す。
我々はこの局所的な互換性をトークンの教育可能性として定式化する。
軽量なトークン配置選択法であるTeachability-Aware OPDを提案する。
論文 参考訳(メタデータ) (2026-05-26T10:56:46Z) - X-Token: Projection-Guided Cross-Tokenizer Knowledge Distillation [19.064775527374618]
クロストケナイザーの知識蒸留により、学生モデルは語彙を持つ教師から学ぶことができる。
ログベースの手法は正しい確率のみを使用し、教師の分布に完全な「暗黒の知識」を欠いている。
本稿では,これらの問題を対象とした2つの相補的損失定式化手法であるX-Tokenを提案する。
論文 参考訳(メタデータ) (2026-05-20T19:59:31Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z) - HDPO: Hybrid Distillation Policy Optimization via Privileged Self-Distillation [0.0]
本稿では,崖のプロンプトをターゲットとした自己蒸留による標準RLを増強するハイブリッド蒸留政策最適化(HDPO)を提案する。
教師と生徒は同じ重み(入力でのみ異なる)を共有しているため、実現可能性のギャップは証明可能な境界である。
Qwen2.5-Math-1.5B-InstructによるOpenMath Instruct-2の実験は、HDPOが常にカバレッジメトリクスを改善していることを示している。
論文 参考訳(メタデータ) (2026-03-25T02:59:36Z) - Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。