論文の概要: Why distillation helps: a statistical perspective
- arxiv url: http://arxiv.org/abs/2005.10419v1
- Date: Thu, 21 May 2020 01:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 22:44:46.187124
- Title: Why distillation helps: a statistical perspective
- Title(参考訳): 蒸留がなぜ役立つのか-統計的視点
- Authors: Aditya Krishna Menon, Ankit Singh Rawat, Sashank J. Reddi, Seungyeon
Kim, and Sanjiv Kumar
- Abstract要約: 知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
- 参考スコア(独自算出の注目度): 69.90148901064747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation is a technique for improving the performance of a
simple "student" model by replacing its one-hot training labels with a
distribution over labels obtained from a complex "teacher" model. While this
simple approach has proven widely effective, a basic question remains
unresolved: why does distillation help? In this paper, we present a statistical
perspective on distillation which addresses this question, and provides a novel
connection to extreme multiclass retrieval techniques. Our core observation is
that the teacher seeks to estimate the underlying (Bayes) class-probability
function. Building on this, we establish a fundamental bias-variance tradeoff
in the student's objective: this quantifies how approximate knowledge of these
class-probabilities can significantly aid learning. Finally, we show how
distillation complements existing negative mining techniques for extreme
multiclass retrieval, and propose a unified objective which combines these
ideas.
- Abstract(参考訳): 知識蒸留は、単純な「学生」モデルの性能を向上させる技術であり、複雑な「教師」モデルから得られたラベルを1ホットのトレーニングラベルに置き換えるものである。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
本稿では,この問題に対処する蒸留の統計的視点を示し,超多クラス検索技術との新たなつながりを提供する。
私たちの中核的な観察は、教師が基礎となる(ベイズ)クラス確率関数を推定しようとすることである。
そこで,本研究では,授業確率の近似知識が学習にどのように寄与するかを定量化する,学生の目的におけるバイアス分散の基本的なトレードオフを定式化する。
最後に, 蒸留が既存の負の鉱業技術を補完して極端に多クラス検索を行う方法を示し, これらのアイデアを組み合わせた統一目的を提案する。
関連論文リスト
- Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Sentence-Level or Token-Level? A Comprehensive Study on Knowledge Distillation [25.58020699235669]
知識蒸留は、教師モデルから学生モデルに知識を伝達するものであり、ニューラルネットワーク翻訳において強力な技術として現れている。
本研究では,より複雑な目的(すなわち分布)を持つトークンレベルの蒸留が,単純なシナリオに適していると主張している。
本稿では,ゲーティング機構によるトークンレベルの蒸留と文レベルの蒸留を組み合わせた新しいハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T08:29:56Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Class-aware Information for Logit-based Knowledge Distillation [16.634819319915923]
そこで本研究では,ロジット蒸留をインスタンスレベルとクラスレベルの両方で拡張する,クラス対応ロジット知識蒸留法を提案する。
CLKDにより、教師モデルからより高度な意味情報を模倣し、蒸留性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T09:27:50Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Revisiting Self-Distillation [50.29938732233947]
自己蒸留とは、大きなモデル(教師)からよりコンパクトなモデル(生徒)に「知識」を移す手順である。
いくつかの作品では、自給自足の生徒が保持されたデータで教師より優れているという逸話がある。
我々は、自己蒸留がより平坦なミニマムをもたらすことを示すための広範な実験を行い、その結果、より良い一般化をもたらす。
論文 参考訳(メタデータ) (2022-06-17T00:18:51Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。