論文の概要: Fast and Effective On-policy Distillation from Reasoning Prefixes
- arxiv url: http://arxiv.org/abs/2602.15260v1
- Date: Mon, 16 Feb 2026 23:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.93941
- Title: Fast and Effective On-policy Distillation from Reasoning Prefixes
- Title(参考訳): 補修プレフィックスの迅速かつ効果的なオンライン蒸留法
- Authors: Dongxu Zhang, Zhichao Yang, Sepehr Janghorbani, Jun Han, Andrew Ressler, Qian Qian, Gregory D. Lyng, Sanjit Singh Batra, Robert E. Tillman,
- Abstract要約: オンライン蒸留(OPD)は学生モデルの軌跡を抽出し、トークンレベルで教師と監督する。
そこで本研究では, 学生生成出力のプレフィックスのみに蒸留目標を適用し, 蒸留の早期に各サンプリングを終了する, 簡易かつ効果的なPDの修正を提案する。
AI-for-Mathベンチマークとアウト・オブ・ベンチマークの実験では、オンラインプレフィックス蒸留はフルPDのパフォーマンスと一致し、FLOPのトレーニングを2倍-47倍削減した。
- 参考スコア(独自算出の注目度): 5.0200371345178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD), which samples trajectories from the student model and supervises them with a teacher at the token level, avoids relying solely on verifiable terminal rewards and can yield better generalization than off-policy distillation. However, OPD requires expensive on-the-fly sampling of the student policy during training, which substantially increases training cost, especially for long responses. Our initial analysis shows that, during OPD, training signals are often concentrated in the prefix of each output, and that even a short teacher-generated prefix can significantly help the student produce the correct answer. Motivated by these observations, we propose a simple yet effective modification of OPD: we apply the distillation objective only to prefixes of student-generated outputs and terminate each sampling early during distillation. Experiments on a suite of AI-for-Math and out-of-domain benchmarks show that on-policy prefix distillation matches the performance of full OPD while reducing training FLOP by 2x-47x.
- Abstract(参考訳): 学生モデルから軌跡を抽出し、トークンレベルで教師と監督するオンライン蒸留(OPD)は、検証可能な終末報酬のみに頼ることを避け、外部蒸留よりもより良い一般化をもたらすことができる。
しかし、OPDは訓練中の学生政策のサンプリングに費用がかかるため、特に長時間の反応において、トレーニングコストを大幅に上昇させる。
初期分析の結果, OPD中は, 学習信号が各出力の接頭辞に集中することが多く, 教師が生成した短い接頭辞でも, 学生が正しい回答を得られることが示唆された。
本研究の目的は, 学生出力の接頭辞にのみ蒸留対象を適用し, 蒸留の早期に各サンプリングを終了させることである。
AI-for-Mathベンチマークとアウト・オブ・ベンチマークの実験では、オンラインプレフィックス蒸留はフルPDのパフォーマンスと一致し、FLOPのトレーニングを2倍-47倍削減した。
関連論文リスト
- Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - Enhancing Reasoning Capabilities in SLMs with Reward Guided Dataset Distillation [0.0]
本稿では,報酬誘導型データセット蒸留フレームワークAdvDistillを提案する。
我々は,教師からの複数の世代(応答)を各プロンプトに利用し,ルールベースの検証に基づいて報酬を割り当てる。
これらの様々な、通常は分散された報酬は、学生モデルを訓練する際の重みとなる。
論文 参考訳(メタデータ) (2025-06-25T20:07:47Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Efficient Scheduling of Data Augmentation for Deep Reinforcement
Learning [2.837718256830632]
深層強化学習(RL)では、データ拡張は有用な先行要素のセットを誘導するツールとして広く考えられている。
しかし、前者が一般化に有用であったとしても、RL剤に蒸留すると、しばしばRLの訓練に干渉し、試料効率を低下させる。
我々は, 任意の時間(RL後であっても)に前向きに一貫性を注入するスタンドアローンネットワーク蒸留法と, 蒸留を自動的にスケジュールする簡易かつ効率的な枠組みを考案した。
論文 参考訳(メタデータ) (2022-06-01T14:28:35Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。