論文の概要: Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.11739v2
- Date: Wed, 13 May 2026 09:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.894105
- Title: Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation
- Title(参考訳): 予知への学習: オン・ポリシィ蒸留の解錠効率を解き明かす
- Authors: Yuchen Cai, Ding Cao, Liang Lin, Chunxi Luo, Xin Xu, Kai Yang, Weijie Liu, Saiyong Yang, Tianxiang Zhao, Guangzhong Sun, Guiquan Liu, Junfeng Fang,
- Abstract要約: OPDの効率は、トレーニングの初期段階において最終モデルに向けた安定的な更新軌道を確立する、フォレスト・オブ・ザ・イヤーズ(foresight')の形式に起因している、と我々は主張する。
我々は、外挿ステップのサイズを適応的に選択し、現在の更新方向に沿って移動することにより、OPDを高速化するプラグイン・アンド・プレイ・アクセラレーション手法である textbfEffOPD を提案する。
- 参考スコア(独自算出の注目度): 51.210887267509854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) has emerged as an efficient post-training paradigm for large language models. However, existing studies largely attribute this advantage to denser and more stable supervision, while the parameter-level mechanisms underlying OPD's efficiency remain poorly understood. In this work, we argue that OPD's efficiency stems from a form of ``foresight'': it establishes a stable update trajectory toward the final model early in training. This foresight manifests in two aspects. First, at the \textbf{Module-Allocation Level}, OPD identifies regions with low marginal utility and concentrates updates on modules that are more critical to reasoning. Second, at the \textbf{Update-Direction Level}, OPD exhibits stronger low-rank concentration, with its dominant subspaces aligning closely with the final update subspace early in training. Building on these findings, we propose \textbf{EffOPD}, a plug-and-play acceleration method that speeds up OPD by adaptively selecting an extrapolation step size and moving along the current update direction. EffOPD requires no additional trainable modules or complex hyperparameter tuning, and achieves an average training acceleration of $3\times$ while maintaining comparable final performance. Overall, our findings provide a parameter-dynamics perspective for understanding the efficiency of OPD and offer practical insights for designing more efficient post-training methods for large language models.
- Abstract(参考訳): オンライン蒸留(OPD)は、大規模言語モデルの効率的な後訓練パラダイムとして登場した。
しかし、既存の研究では、この利点はより密度が高く安定した監視に大きく影響しているが、PDの効率の根底にあるパラメータレベルのメカニズムはよく理解されていない。
本研究では, OPD の効率性は 'foresight' の形式に起因し, トレーニングの初期段階において最終モデルに対する安定的な更新軌道を確立する。
この展望は2つの側面に現れます。
まず、‘textbf{Module-Allocation Level} において、OPD は限界ユーティリティの低い領域を特定し、推論により重要なモジュールにアップデートを集中させる。
次に、‘textbf{Update-Direction Level} において、OPD はより強い低ランク濃度を示し、その支配的な部分空間はトレーニングの初期に最終更新部分空間と密接に一致している。
これらの結果に基づいて,外挿ステップのサイズを適応的に選択し,現在の更新方向に沿って移動することにより,OPDを高速化するプラグイン・アンド・プレイ・アクセラレーション法である「textbf{EffOPD}」を提案する。
EffOPDは、追加のトレーニング可能なモジュールや複雑なハイパーパラメータチューニングを必要としない。
全体として,OPDの効率を理解するためのパラメータ-力学的な視点を提供し,大規模言語モデルのためのより効率的なポストトレーニング手法を設計するための実践的な洞察を提供する。
関連論文リスト
- The Golden Subspace: Where Efficiency Meets Generalization in Continual Test-Time Adaptation [86.83038620308423]
Continual Test-Time Adaptation (CTTA)は、ソースデータにアクセスすることなく、分散シフトの下でラベルなしのデータストリームへのオンライン適応を可能にすることを目的としている。
我々は,GOLD ( Guided Online Low-rank Directional Adaptation) を提案する。これは,Goldenサブスペースに機能を投影する軽量アダプタを用いて,サブスペースがAGOPを介して動的に更新される間に,コンパクトなスケーリングベクトルを学習する。
論文 参考訳(メタデータ) (2026-03-23T12:48:38Z) - High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - FDBPL: Faster Distillation-Based Prompt Learning for Region-Aware Vision-Language Models Adaptation [17.51747913191231]
大規模なtextbfFaster large textbfDistillation-large textbfBased large textbfPrompt large textbfLL (textbfFDBPL) を提案する。
複数のトレーニングステージにまたがってソフトな監視コンテキストを共有し、アクセラレーションされたI/Oを実装することで、問題に対処する。11データセットにわたる包括的な評価は、ベース・ツー・ニューな一般化、クロス・データセットの転送、ロバストネステストにおいて優れたパフォーマンスを示し、より高速なトレーニング速度で2.2倍の速さで達成する。
論文 参考訳(メタデータ) (2025-05-23T15:57:16Z) - Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations [2.992602379681373]
マルチモーダル微調整により,OoDDの性能が向上することを示す。
本稿では,IDデータの画像とテキストの埋め込み距離を正規化することにより,モーダルアライメントを向上させる訓練目標を提案する。
論文 参考訳(メタデータ) (2025-03-24T16:00:21Z) - Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - Active Finetuning: Exploiting Annotation Budget in the
Pretraining-Finetuning Paradigm [132.9949120482274]
本稿では,事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てる。
本研究では,アクティブな微調整タスクのためのActiveFTと呼ばれる新しい手法を提案する。
画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。
論文 参考訳(メタデータ) (2023-03-25T07:17:03Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。