論文の概要: Stable On-Policy Distillation through Adaptive Target Reformulation
- arxiv url: http://arxiv.org/abs/2601.07155v1
- Date: Mon, 12 Jan 2026 02:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.19083
- Title: Stable On-Policy Distillation through Adaptive Target Reformulation
- Title(参考訳): 適応的ターゲット改質による安定なオンライン蒸留
- Authors: Ijun Jang, Jewon Yeom, Juan Yeo, Hyunggu Lim, Taesup Kim,
- Abstract要約: ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。
ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 7.361248172930405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is a widely adopted technique for transferring knowledge from large language models to smaller student models; however, conventional supervised KD often suffers from a distribution mismatch between training and inference. While on-policy KD approaches attempt to mitigate this issue by learning directly from student-generated outputs, they frequently encounter training instabilities because the distributional gap between the novice student and the expert teacher is often too wide to bridge directly. These challenges manifest as pathological gradients in forward KL objectives or diversity collapse in reverse KL regimes. To address these limitations, we propose Veto, an objective-level reformulation that constructs a geometric bridge in the logit space. Unlike prior methods that mix data samples, Veto creates an intermediate target distribution that promotes alignment between the teacher and the student. By introducing a tunable parameter beta, Veto serves as an Adaptive Gradient Veto that stabilizes optimization by suppressing harmful gradients on low-confidence tokens, while simultaneously acting as a Decisiveness Knob to balance reward-driven performance with output diversity. Extensive experiments across various reasoning and generation tasks demonstrate that Veto consistently outperforms supervised fine-tuning and existing on-policy baselines.
- Abstract(参考訳): 知識蒸留(KD)は、大きな言語モデルからより小さな学生モデルに知識を伝達する手法として広く採用されているが、従来の教師付きKDは、訓練と推論の分散ミスマッチに悩まされることが多い。
オンラインKDアプローチは、学生が生成したアウトプットから直接学習することでこの問題を緩和しようとするが、初等生と専門教師の分散的ギャップが直接ブリッジするには大きすぎるため、しばしば訓練の不安定さに遭遇する。
これらの課題は、KLの進行目標における病理的な勾配や、逆KL体制における多様性の崩壊として現れている。
これらの制約に対処するために,ロジット空間に幾何学的ブリッジを構成する客観的なレベル再構成であるVetoを提案する。
データサンプルを混合する従来の方法とは異なり、Vetoは教師と生徒のアライメントを促進する中間ターゲット分布を生成する。
調整可能なパラメータベータを導入することで、Vetoは、低信頼トークンの有害な勾配を抑えることで最適化を安定化するAdaptive Gradient Vetoとして機能し、同時にDecisiveness Knobとして機能し、報酬駆動のパフォーマンスと出力の多様性のバランスをとる。
様々な推論および生成タスクにわたる広範囲な実験により、ヴェトは監督された微調整と既存のオンラインベースラインを一貫して上回っていることが示された。
関連論文リスト
- Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。
ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文 参考訳(メタデータ) (2025-12-03T12:43:16Z) - Orthogonal Projection Subspace to Aggregate Online Prior-knowledge for Continual Test-time Adaptation [67.80294336559574]
連続テスト時間適応(CTTA)は、新しいシナリオに継続的に適応するために、ソース事前訓練されたモデルを必要とするタスクである。
我々は、OoPkと呼ばれるオンライン事前知識を集約する新しいパイプラインOrthogonal Projection Subspaceを提案する。
論文 参考訳(メタデータ) (2025-06-23T18:17:39Z) - ToDi: Token-wise Distillation via Fine-Grained Divergence Control [9.958797874295355]
Token-wise Distillation (ToDi) は、Sigmoid-based weighting function を用いてトークンごとのフォワードKLとリバースKLを適応的に結合する新しい方法である。
ToDiは、均一またはより粒度の低い戦略を用いて、最近の蒸留ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-22T06:51:16Z) - LoRanPAC: Low-rank Random Features and Pre-trained Models for Bridging Theory and Practice in Continual Learning [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
理論的に健全で高性能な単純なCL法を設計することで,このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - Fairness-Aware Meta-Learning via Nash Bargaining [63.44846095241147]
本稿では,機械学習におけるグループレベルの公平性の問題に対処する2段階のメタ学習フレームワークを提案する。
第1段階では、過度な競合を解決するためにNash Bargaining Solution(NBS)を使用して、モデルをステアリングする。
6つのキーフェアネスデータセットと2つの画像分類タスクにおいて、様々なフェアネス目標に対して経験的効果を示す。
論文 参考訳(メタデータ) (2024-06-11T07:34:15Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - TransFusion: Covariate-Shift Robust Transfer Learning for High-Dimensional Regression [11.040033344386366]
対象タスクの学習性能を限定的なサンプルで向上させるため, 新規な融合正規化器を用いた2段階の手法を提案する。
対象モデルの推定誤差に対して、漸近的境界が提供される。
提案手法を分散設定に拡張し,事前学習ファインタニング戦略を実現する。
論文 参考訳(メタデータ) (2024-04-01T14:58:16Z) - Model-Aware Contrastive Learning: Towards Escaping the Dilemmas [11.27589489269041]
コントラスト学習(CL)は、複数の領域にわたる重要なブレークスルーを継続的に達成する。
InfoNCEベースの手法は、テクスチュニフォーム・トレランス・ジレンマ(UTD)やテクスチュイディグレート・リダクション(UTD)など、いくつかのジレンマに悩まされている。
本稿では,インスタンス識別タスクの基本的な信頼性を反映したアライメントの程度に温度が適応するモデル認識コントラスト学習(MACL)戦略を提案する。
論文 参考訳(メタデータ) (2022-07-16T08:21:55Z) - Alleviating Robust Overfitting of Adversarial Training With Consistency
Regularization [9.686724616328874]
対戦訓練(AT)は、ディープニューラルネットワーク(DNN)を敵の攻撃から守る最も効果的な方法の1つであることが証明されている。
強靭性は特定の段階で急激に低下し、常にATの間に存在する。
半教師付き学習の一般的なテクニックである一貫性の正規化は、ATと同じような目標を持ち、堅牢なオーバーフィッティングを軽減するために使用できる。
論文 参考訳(メタデータ) (2022-05-24T03:18:43Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。