論文の概要: Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes
- arxiv url: http://arxiv.org/abs/2603.25562v1
- Date: Thu, 26 Mar 2026 15:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.361078
- Title: Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes
- Title(参考訳): オンライン蒸留を再考する:経験的失敗モードと簡単な修正
- Authors: Yuqian Fu, Haohuan Huang, Kaiwen Jiang, Yuanheng Zhu, Dongbin Zhao,
- Abstract要約: オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
- 参考スコア(独自算出の注目度): 31.95045602299568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) is appealing for large language model (LLM) post-training because it evaluates teacher feedback on student-generated rollouts rather than fixed teacher traces. In long-horizon settings, however, the common sampled-token variant is fragile: it reduces distribution matching to a one-token signal and becomes increasingly unreliable as rollouts drift away from prefixes the teacher commonly visits. We revisit OPD from the estimator and implementation sides. Theoretically, token-level OPD is biased relative to sequence-level reverse-KL, but it has a much tighter worst-case variance bound; our toy study shows the same tradeoff empirically, with stronger future-reward coupling producing higher gradient variance and less stable learning. Empirically, we identify three failure modes of sampled-token OPD: an imbalanced one-token signal, unreliable teacher guidance on student-generated prefixes, and distortions caused by tokenizer or special-token mismatch. We address these issues with teacher top-K local support matching, implemented as truncated reverse-KL with top-p rollout sampling and special-token masking. Across single-task math reasoning and multi-task agentic-plus-math training, this objective yields more stable optimization and better downstream performance than sampled-token OPD.
- Abstract(参考訳): オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
しかし、ロングホライゾン設定では、一般的なサンプル・トケン変種は脆弱であり、教師がよく訪れる接頭辞からロールアウトが逸脱するにつれて、分布マッチングをワン・トケン信号に還元し、信頼性が低下する。
推定器と実装側からOPDを再検討する。
理論的には、トークンレベルのOPDは、シーケンスレベルの逆KLに対してバイアスを受けるが、より厳密な最悪のケース分散を持つ。
実験により,サンプルトケンOPDの障害モードとして,不均衡な1トケン信号,学生が生成した接頭辞に対する教師の信頼できない指導,トークン化や特殊トケンミスマッチによる歪みの3つを同定した。
本稿では,トップpロールアウトサンプリングと特別なマスキングを併用したTruncated reverse-KLとして実装した教師用トップKローカルサポートマッチングを用いて,これらの課題に対処する。
シングルタスクの算数推論とマルチタスクのエージェント+マスのトレーニングにおいて、この目的はサンプリングされたOPDよりも安定した最適化と下流性能をもたらす。
関連論文リスト
- Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Probability-Entropy Calibration: An Elastic Indicator for Adaptive Fine-tuning [55.2818264614932]
RankTunerは確率エントロピーキャリブレーション信号、相対ランクインジケータを導入し、予測分布の下で接地トラストークンのランクと期待ランクを比較する。
逆インジケータはトークン単位の相対尺度として使用され、微調整の目的を再重み付けし、真に未学習のトークンを更新する。
論文 参考訳(メタデータ) (2026-02-02T07:27:19Z) - Long-Chain Reasoning Distillation via Adaptive Prefix Alignment [57.130176131042965]
本稿では,教師のCoTを適応的接頭辞アライメントによる蒸留に活用するフレームワークを提案する。
P-ALIGNは、残りの接尾辞が簡潔かどうかを判断することで、教師生成の推論軌道を適応的に切り離す。
複数の数学的推論ベンチマークの実験では、P-ALIGNはすべてのベースラインを3%以上上回っている。
論文 参考訳(メタデータ) (2026-01-15T04:40:45Z) - Stable On-Policy Distillation through Adaptive Target Reformulation [7.361248172930405]
ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。
ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-12T02:57:39Z) - Taming the Tail: Stable LLM Reinforcement Learning via Dynamic Vocabulary Pruning [35.41241409574854]
推論エンジンと数値的精度のトレーニングシステムは、同じパラメータから異なる確率分布を生成し、トレーニング推論ミスマッチを生成する。
このようなトークンを刈り取ることで、大きな、体系的にバイアスのあるミスマッチを、小さな、境界付けられた最適化バイアスと交換する。
論文 参考訳(メタデータ) (2025-12-28T21:44:07Z) - Sebra: Debiasing Through Self-Guided Bias Ranking [54.09529903433859]
微粒なスプリシティ推定による試料のランク付けは,近年,バイアス緩和に大きく寄与することが示されている。
新たなulSelf-Guided ulBias ulRanking(emphSebra)に基づく脱バイアスフレームワークを提案する。
Sebraは、各クラス内のスプリシティによって、データポイントの自動ランキングを通じてバイアスを緩和する。
論文 参考訳(メタデータ) (2025-01-30T11:31:38Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Prompt Tuning Pushes Farther, Contrastive Learning Pulls Closer: A
Two-Stage Approach to Mitigate Social Biases [13.837927115198308]
本稿では,コントラスト学習と連続的プロンプト拡張を用いた逆トレーニングによる2段階脱バイアスモデルを提案する。
我々のアプローチは、トレーニングプロセスに困難を加えることで、より強固なデバイアス性能を達成するためのモデルを導出します。
論文 参考訳(メタデータ) (2023-07-04T09:35:03Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。