論文の概要: Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why
- arxiv url: http://arxiv.org/abs/2605.10889v1
- Date: Mon, 11 May 2026 17:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.038634
- Title: Unmasking On-Policy Distillation: Where It Helps, Where It Hurts, and Why
- Title(参考訳): 公共の場での蒸留を解き放つ:どこが役に立つのか、どこが苦しむのか、なぜか
- Authors: Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar,
- Abstract要約: 本稿では,トークン単位,質問単位,教師単位の最高解像度で動作する無トレーニング診断フレームワークを提案する。
蒸留指導は, 不正なロールアウトにおいて, 正しいロールアウトよりも, 理想とほぼ一致していることが観察された。
- 参考スコア(独自算出の注目度): 32.00194810443734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation offers dense, per-token supervision for training reasoning models; however, it remains unclear under which conditions this signal is beneficial and under which it is detrimental. Which teacher model should be used, and in the case of self-distillation, which specific context should serve as the supervisory signal? Does the optimal choice vary from one token to the next? At present, addressing these questions typically requires costly training runs whose aggregate performance metrics obscure the dynamics at the level of individual tokens. We introduce a training-free diagnostic framework that operates at the highest resolution: per token, per question, and per teacher. We derive an ideal per-node gradient defined as the parameter update that maximally increases the student's probability of success. We then develop a scalable targeted-rollout algorithm to estimate this gradient efficiently, even for long chains of intermediate thoughts. The gradient alignment score, defined as the cosine similarity between this ideal gradient and any given distillation gradient, quantifies the extent to which a particular configuration approximates the ideal signal. Across a range of self-distillation settings and external teacher models, we observe that distillation guidance exhibits substantially higher alignment with the ideal on incorrect rollouts than on correct ones, where the student already performs well and the teacher's signal tends to become noisy. Furthermore, we find that the optimal distillation context depends jointly on the student model's capacity and the target task, and that no single universally effective configuration emerges. These findings motivate the use of per-task, per-token diagnostic analyses for distillation.
- Abstract(参考訳): オンライン蒸留は、トレーニング推論モデルのための密集した1対1の監督を提供するが、どの条件下でこの信号が有用か、どの条件で有害かは定かではない。
どの教師モデルを使うべきで、自己蒸留の場合、どのコンテキストが監督信号として機能すべきなのか?
最適な選択は1つのトークンから次のトークンに変わりますか?
現時点では、これらの疑問に対処するためには通常、個々のトークンのレベルでのダイナミクスを曖昧にするような、総合的なパフォーマンス指標を備えた、コストのかかるトレーニング実行が必要です。
本稿では,トークン単位,質問単位,教師単位の最高解像度で動作する無トレーニング診断フレームワークを提案する。
学習者の成功確率を最大化するためのパラメータ更新として定義される理想的なノードごとの勾配を導出する。
そこで我々は、この勾配を効率的に推定するスケーラブルなターゲットロールアウトアルゴリズムを開発した。
この理想勾配と任意の蒸留勾配のコサイン類似性として定義される勾配アライメントスコアは、特定の構成が理想信号に近似する範囲を定量化する。
蒸留指導は, 学生がすでによく動作しており, 教師の信号がうるさくなりがちな, 正しいロールアウトにおいて, 理想とほぼ一致していることが観察された。
さらに, 最適蒸留条件は, 学生モデルの能力と目標課題に大きく依存しており, 単一の普遍的な構成が存在しないことが判明した。
これらの知見は, 蒸留におけるタスク毎の診断分析の活用を動機づけるものである。
関連論文リスト
- Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - Long-Chain Reasoning Distillation via Adaptive Prefix Alignment [57.130176131042965]
本稿では,教師のCoTを適応的接頭辞アライメントによる蒸留に活用するフレームワークを提案する。
P-ALIGNは、残りの接尾辞が簡潔かどうかを判断することで、教師生成の推論軌道を適応的に切り離す。
複数の数学的推論ベンチマークの実験では、P-ALIGNはすべてのベースラインを3%以上上回っている。
論文 参考訳(メタデータ) (2026-01-15T04:40:45Z) - Elucidating the Preconditioning in Consistency Distillation [25.213664260896103]
整合性ギャップに応じて事前条件を解析的に最適化する「textitAnalytic-Precond」を提案する。
そこで我々は,Analytic-Precondがトラジェクトリ・ジャンパーの学習を容易にし,生徒のトラジェクトリと教師のトラジェクトリのアライメントを高め,一貫性トラジェクトリモデルのトレーニングアクセラレーションを2倍から3倍に向上できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T06:30:37Z) - Logit Standardization in Knowledge Distillation [83.31794439964033]
教師と学生の共用温度の仮定は、ロジット範囲と分散の点で、ロジット間の厳密な一致を暗示している。
温度をロジットの重み付け標準偏差として設定し、ロジット標準化のプラグアンドプレイZスコア前処理を実行することを提案する。
我々の前処理により、学生はマグニチュードマッチを必要とせず、教師の本質的なロジット関係に集中することができ、既存のロジットベースの蒸留法の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-03-03T07:54:03Z) - How a student becomes a teacher: learning and forgetting through
Spectral methods [1.1470070927586018]
理論MLでは、教師パラダイムは実生活の授業の効果的なメタファーとしてしばしば用いられる。
本研究では、根本的に異なる最適化スキームを提案することにより、飛躍的に前進する。
このフレームワークで作業することで、教師の真の複雑さを反映した安定した学生のサブ構造を分離できる。
論文 参考訳(メタデータ) (2023-10-19T09:40:30Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Paced-Curriculum Distillation with Prediction and Label Uncertainty for
Image Segmentation [25.20877071896899]
カリキュラム学習では、まず簡単なサンプルをトレーニングし、徐々に困難を増すことが考えられている。
自己ペースト学習では、ペアリング関数はトレーニングの進捗に適応する速度を定義する。
医用画像セグメンテーションのための新しいペースドキュリキュラム蒸留法(PCD)を開発した。
論文 参考訳(メタデータ) (2023-02-02T12:24:14Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。