論文の概要: Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.26844v1
- Date: Tue, 26 May 2026 10:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.897788
- Title: Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation
- Title(参考訳): すべての診断が学べる訳ではない:オンライン蒸留におけるトーケン教育の可能性
- Authors: Yuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang,
- Abstract要約: 生のKL不一致が学習価値の粗いプロキシであることを示す。
我々はこの局所的な互換性をトークンの教育可能性として定式化する。
軽量なトークン配置選択法であるTeachability-Aware OPDを提案する。
- 参考スコア(独自算出の注目度): 28.572361799234784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) trains a student on its own rollouts with token-level teacher supervision. Recent selective OPD methods exploit the non-uniformity of OPD signals by prioritizing high-entropy or high-disagreement tokens. We revisit this principle and ask: which token-level teacher signals are actually learnable? Using a fixed-context diagnostic that measures same-context teacher-student KL reduction, we show that raw KL disagreement is a coarse proxy for learning value. It conflates learnable disagreement, where the teacher assigns corrective mass to the student's top-K candidates, with incompatible disagreement, where the teacher places mass mostly off the student's current support. We formalize this local compatibility as token teachability and show that it better predicts fixed-context improvement than raw KL alone. Motivated by this finding, we propose Teachability-Aware OPD (TA-OPD), a lightweight token-position selection method that applies OPD loss to high-teachability positions without reward models or verifiers. Across Qwen2.5 and Qwen 3 teacher-student settings, TA-OPD often surpasses full-token OPD with only 5% retained tokens and improves over entropy- and divergence-based baselines. Our results reframe selective OPD as selecting learnable teacher signals rather than merely salient tokens.
- Abstract(参考訳): オンライン蒸留(On-policy distillation、OPD)は、学生にトークンレベルの教師監督を施した独自のロールアウトを訓練する。
近年の選択的PD法は、高エントロピーまたは高分解トークンを優先することで、PD信号の不均一性を利用する。
私たちはこの原則を再検討し、どのトークンレベルの教師信号が実際に学習できるのかを尋ねます。
教師/学生のKL低下を測定する固定コンテキスト診断を用いて、生のKL不一致が学習価値の粗いプロキシであることを示す。
教師が生徒の上位K候補に補正質量を割り当てる学習可能な不一致と、教師が生徒の現在の支持から質量を遠ざける不一致とを混同する。
我々は、この局所的な互換性をトークンの教えやすさとして形式化し、生のKL単独よりも固定コンテキストの改善を予測できることを示す。
この発見に触発されたTA-OPD(Teachability-Aware OPD, Teachability-Aware OPD)を提案する。
Qwen2.5 と Qwen 3 では、TA-OPD はフルトークンの OPD を超え、5% のトークンしか保持せず、エントロピーや分散ベースのベースラインよりも改善されている。
本研究の結果は,有能なトークンではなく,学習可能な教師信号の選択として選択的なPDを再構成した。
関連論文リスト
- Less is More: Early Stopping Rollout for On-Policy Distillation [39.392596318514244]
早期停止ロールアウト(Early Stopping Rollout, ESR)は, ロールアウト生成を第1応答トークンに限定した簡易かつ効果的な蒸留戦略である。
その結果,ESRはモデルサイズ,家族,タスク,トレーニング体制全体にわたって,フルロールアウトのOPD性能を上回っていることがわかった。
論文 参考訳(メタデータ) (2026-05-26T13:49:37Z) - EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation [5.310892696470208]
On-Policy Distillation (OPD)はLLMポストトレーニングパラダイムとして広く注目を集めている。
このアプローチの課題は、特権情報によって、意図よりもモデル行動を変えることができることだ。
EviDence GuidEd On-Policy Distillation (EDGE-OPD)を提案する。
論文 参考訳(メタデータ) (2026-05-22T10:55:15Z) - When Are Teacher Tokens Reliable? Position-Weighted On-Policy Self-Distillation for Reasoning [45.79647925282674]
On-policy Self-distillation (OPSD) は、特権教師を使って生徒を自身のロールアウトで訓練する。
既存のエントロピーに基づくPD手法は、教師エントロピーによるトークンレベルの監督を調節することで、この一様性を緩和する。
そこで我々は,PW-OPSD(Pight-Weighted On-Policy Self-Distillation)を提案する。
論文 参考訳(メタデータ) (2026-05-20T18:14:03Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。