論文の概要: Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs
- arxiv url: http://arxiv.org/abs/2503.16870v1
- Date: Fri, 21 Mar 2025 05:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:54.738591
- Title: Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs
- Title(参考訳): スパースロジットサンプリング:LLMにおける知識蒸留の高速化
- Authors: Anshumann, Mohd Abbas Zaidi, Akhil Kedia, Jinwoo Ahn, Taehwak Kwon, Kangwook Lee, Haejun Lee, Joohyung Lee,
- Abstract要約: 教師の確率分布を直感的に評価しながら,Top-K確率をキャッシュするなど,スパースな知識蒸留に対する素質的なアプローチが学生に偏りがあることを実証する。
重要サンプリングに基づくランダムサンプリング方式であるランダムサンプリング知識蒸留(Random Smpling Knowledge Distillation)を提案する。
- 参考スコア(独自算出の注目度): 12.73155638335145
- License:
- Abstract: Knowledge distillation can be a cost-effective technique to distill knowledge in Large Language Models, if the teacher output logits can be pre-computed and cached. However, successfully applying this to pre-training remains largely unexplored. In this work, we prove that naive approaches for sparse knowledge distillation such as caching Top-K probabilities, while intuitive, provide biased estimates of teacher probability distribution to the student, resulting in suboptimal performance and calibration. We propose an importance-sampling-based method `Random Sampling Knowledge Distillation', which provides unbiased estimates, preserves the gradient in expectation, and requires storing significantly sparser logits. Our method enables faster training of student models with marginal overhead (<10%) compared to cross-entropy based training, while maintaining competitive performance compared to full distillation, across a range of model sizes from 300M to 3B.
- Abstract(参考訳): 知識蒸留は、教師の出力ロジットを事前計算してキャッシュできる場合、大規模言語モデルにおいて知識を蒸留するための費用効率の良い手法である。
しかし、これを事前訓練に適用することは、ほとんど未定のままである。
本研究では,Top-K確率をキャッシュするなど,スパースな知識蒸留に対する素質的なアプローチが直感的ではあるが,教師の確率分布の偏りを学生に与え,最適性能とキャリブレーションをもたらすことを実証する。
重要サンプリングに基づく「ランダムサンプリング知識蒸留(Random Smpling Knowledge Distillation)」手法を提案する。
提案手法は,3Mから3Bまでのモデルサイズで,クロスエントロピーベーストレーニングと比較して,限界オーバーヘッド (10%) の学生モデルの高速な訓練を可能にした。
関連論文リスト
- Learning Effective Representations for Retrieval Using Self-Distillation with Adaptive Relevance Margins [29.88235846291593]
ビエンコーダは、それぞれの埋め込みの類似性を計算することによって、クエリに対するドキュメントの関連性を推定します。
現在最先端のバイオエンコーダは、教師モデルからの知識蒸留とバッチサンプリングを含む高価なトレーニングシステムを用いて訓練されている。
本稿では,エンコーダモデルの事前学習言語モデリング機能をトレーニング信号として活用する,自己超越のための新しいパラメータフリー損失関数を提案する。
論文 参考訳(メタデータ) (2024-07-31T10:33:32Z) - Self-Knowledge Distillation for Learning Ambiguity [11.755814660833549]
最近の言語モデルは、その正確さを考慮せずに単一のラベルを過度に予測することが多い。
本稿では,ラベル分布をより正確に学習できる新しい自己知識蒸留法を提案する。
本手法を多種多様なNLUベンチマークデータセットで検証し,実験結果から,より優れたラベル分布を生成する上での有効性を実証した。
論文 参考訳(メタデータ) (2024-06-14T05:11:32Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - AI-KD: Adversarial learning and Implicit regularization for self-Knowledge Distillation [20.80341206396388]
本稿では, 自己知識蒸留(AI-KD)における対向学習と暗黙の正則化という, 対向的ペナル化自己知識蒸留法を提案する。
我々のモデルは,事前学習と過去の予測確率から得られた決定論的および進歩的知識を蒸留するだけでなく,逆学習を用いて決定論的予測分布の知識を伝達する。
提案手法の有効性を実証し,提案手法が最先端手法よりも優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2022-11-20T10:30:58Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。