論文の概要: GUIDE: Guided Initialization and Distillation of Embeddings
- arxiv url: http://arxiv.org/abs/2510.06502v1
- Date: Tue, 07 Oct 2025 22:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.219828
- Title: GUIDE: Guided Initialization and Distillation of Embeddings
- Title(参考訳): GUIDE: 埋め込みの初期化と蒸留
- Authors: Khoa Trinh, Gaurav Menghani, Erik Vee,
- Abstract要約: ガイド(インプラントの初期化・蒸留)について紹介する
ガイドは、学生がパラメータ空間の教師にマッチするように強制する蒸留技術と考えることができる。
本研究は, ガイドのみを適用すれば, 知識蒸留よりも, モデル品質が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 5.42040523407098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithmic efficiency techniques such as distillation (\cite{hinton2015distillation}) are useful in improving model quality without increasing serving costs, provided a larger teacher model is available for a smaller student model to learn from during training. Standard distillation methods are limited to only forcing the student to match the teacher's outputs. Given the costs associated with training a large model, we believe we should be extracting more useful information from a teacher model than by just making the student match the teacher's outputs. In this paper, we introduce \guide (Guided Initialization and Distillation of Embeddings). \guide can be considered a distillation technique that forces the student to match the teacher in the parameter space. Using \guide we show 25-26\% reduction in the teacher-student quality gap when using large student models (400M - 1B parameters) trained on $\approx$ 20B tokens. We also present a thorough analysis demonstrating that \guide can be combined with knowledge distillation with near additive improvements. Furthermore, we show that applying \guide alone leads to substantially better model quality than applying knowledge distillation by itself. Most importantly, \guide introduces no training or inference overhead and hence any model quality gains from our method are virtually free.
- Abstract(参考訳): 蒸留 (\cite{hinton2015distillation}) のようなアルゴリズムの効率性は, 給油コストを増大させることなく, モデル品質を向上させるのに有用である。
標準的な蒸留法は、生徒に教師の出力に合わせることだけを強制することに限定されている。
大規模モデルの学習にかかわるコストを考えると、学生が教師の出力にマッチさせるよりも、教師モデルから有用な情報を抽出すべきであると信じている。
本稿では,埋め込みの誘導初期化と蒸留について紹介する。
\guideは、学生がパラメータ空間の教師と一致するように強制する蒸留技術と見なすことができる。
大学生モデル(400M~1Bパラメータ)を$\approx$20Bトークンでトレーニングした場合,教師と学生の質格差を25~26パーセント削減する。
また,<guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</
さらに,<guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</guide</
最も重要なことは、Shaguideはトレーニングや推論のオーバーヘッドを伴わず、したがって私たちのメソッドから得られるモデル品質は事実上無料です。
関連論文リスト
- Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
我々は,教師のスコア管理を完全に禁止する,新しい研修方法のファミリーを紹介する。
教師の重みによる学生モデルの初期化は依然として重要な課題である。
論文 参考訳(メタデータ) (2025-02-11T23:02:14Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。