論文の概要: Modeling Teacher-Student Techniques in Deep Neural Networks for
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/1912.13179v1
- Date: Tue, 31 Dec 2019 05:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 20:23:47.859856
- Title: Modeling Teacher-Student Techniques in Deep Neural Networks for
Knowledge Distillation
- Title(参考訳): 深層ニューラルネットワークの知識蒸留における教師・生徒のモデリング
- Authors: Sajjad Abbasi, Mohsen Hajabdollahi, Nader Karimi, Shadrokh Samavi
- Abstract要約: 知識蒸留(KD)は、学習中の構造物の知識を別のものに移す新しい方法である。
本稿では,KDの一般モデルを構築するために,KDの範囲に関する様々な研究を調査し,分析する。
KDにおける異なるアプローチの利点とデメリットをよりよく理解し、KDの新しい戦略を開発することが可能である。
- 参考スコア(独自算出の注目度): 9.561123408923489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is a new method for transferring knowledge of a
structure under training to another one. The typical application of KD is in
the form of learning a small model (named as a student) by soft labels produced
by a complex model (named as a teacher). Due to the novel idea introduced in
KD, recently, its notion is used in different methods such as compression and
processes that are going to enhance the model accuracy. Although different
techniques are proposed in the area of KD, there is a lack of a model to
generalize KD techniques. In this paper, various studies in the scope of KD are
investigated and analyzed to build a general model for KD. All the methods and
techniques in KD can be summarized through the proposed model. By utilizing the
proposed model, different methods in KD are better investigated and explored.
The advantages and disadvantages of different approaches in KD can be better
understood and develop a new strategy for KD can be possible. Using the
proposed model, different KD methods are represented in an abstract view.
- Abstract(参考訳): 知識蒸留(KD)は、学習中の構造物の知識を別のものに移す新しい方法である。
KDの典型的な応用は、複雑なモデル(教師と呼ばれる)によって生成されるソフトラベルによって小さなモデル(学生と呼ばれる)を学習する形式である。
kdで導入された斬新なアイデアのため、近年では圧縮やモデルの精度を高めるプロセスといった様々な手法でその概念が使われている。
kdの領域では異なる手法が提案されているが、kd技術を一般化するモデルがない。
本稿では,KDの一般モデルを構築するために,KDの範囲に関する様々な研究を調査し,分析する。
kdのすべてのメソッドとテクニックは、提案モデルを通じて要約することができる。
提案モデルを用いて,KDの異なる手法をよりよく検討し,検討した。
KDにおける異なるアプローチの利点とデメリットをよりよく理解し、KDの新しい戦略を開発することが可能である。
提案したモデルを用いて、異なるKDメソッドを抽象ビューで表現する。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation [10.899753512019933]
知識蒸留(KD)は、軽量ネットワークの最適化を目的としている。
KDは主に知識抽出と蒸留戦略を含む。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズムなどを含む総合的なKD調査を行う。
論文 参考訳(メタデータ) (2023-06-19T03:42:44Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - Pea-KD: Parameter-efficient and Accurate Knowledge Distillation on BERT [20.732095457775138]
知識蒸留(KD)は、モデル圧縮の手法として広く知られている。
Pea-KDは、Shuffled Sharing(SPS)とPretraining with Teacher's Predictions(PTP)の2つの主要部分から構成される。
論文 参考訳(メタデータ) (2020-09-30T17:52:15Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。