論文の概要: Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2306.10687v1
- Date: Mon, 19 Jun 2023 03:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 19:17:08.902360
- Title: Categories of Response-Based, Feature-Based, and Relation-Based
Knowledge Distillation
- Title(参考訳): 反応型・特徴型・関係型知識蒸留のカテゴリ
- Authors: Chuanguang Yang, Xinqiang Yu, Zhulin An, Yongjun Xu
- Abstract要約: 知識蒸留(KD)は、軽量ネットワークの最適化を目的としている。
KDは主に知識抽出と蒸留戦略を含む。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズムなどを含む総合的なKD調査を行う。
- 参考スコア(独自算出の注目度): 10.899753512019933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have achieved remarkable performance for artificial
intelligence tasks. The success behind intelligent systems often relies on
large-scale models with high computational complexity and storage costs. The
over-parameterized networks are often easy to optimize and can achieve better
performance. However, it is challenging to deploy them over resource-limited
edge-devices. Knowledge Distillation (KD) aims to optimize a lightweight
network from the perspective of over-parameterized training. The traditional
offline KD transfers knowledge from a cumbersome teacher to a small and fast
student network. When a sizeable pre-trained teacher network is unavailable,
online KD can improve a group of models by collaborative or mutual learning.
Without needing extra models, Self-KD boosts the network itself using attached
auxiliary architectures. KD mainly involves knowledge extraction and
distillation strategies these two aspects. Beyond KD schemes, various KD
algorithms are widely used in practical applications, such as multi-teacher KD,
cross-modal KD, attention-based KD, data-free KD and adversarial KD. This paper
provides a comprehensive KD survey, including knowledge categories,
distillation schemes and algorithms, as well as some empirical studies on
performance comparison. Finally, we discuss the open challenges of existing KD
works and prospect the future directions.
- Abstract(参考訳): ディープニューラルネットワークは、人工知能のタスクで素晴らしいパフォーマンスを達成した。
インテリジェントシステムの成功は、しばしば計算複雑性とストレージコストの高い大規模モデルに依存している。
オーバーパラメータネットワークは最適化が容易で、パフォーマンスが向上することが多い。
しかし、リソース限定のエッジデバイスにデプロイすることは困難である。
知識蒸留(KD)は、過パラメータトレーニングの観点から軽量ネットワークを最適化することを目的としている。
従来のオフラインKDは、面倒な教師からの知識を、小さくて速い学生ネットワークに転送する。
大規模な事前学習型教員ネットワークが利用できない場合、オンラインKDは協調学習や相互学習によってモデル群を改善することができる。
追加のモデルを必要とせずに、Self-KDはネットワーク自体を補助アーキテクチャーで強化する。
KDは主にこれらの2つの側面の知識抽出と蒸留戦略を含んでいる。
KDスキーム以外にも、マルチ教師KD、クロスモーダルKD、アテンションベースKD、データフリーKD、逆KDといった様々なKDアルゴリズムが実用用途で広く利用されている。
本稿では,知識カテゴリ,蒸留スキーム,アルゴリズム,および性能比較に関する実証的研究を含む総合的なKD調査を提供する。
最後に,既存のkdワークのオープンな課題と今後の方向性について考察する。
関連論文リスト
- Practical Insights into Knowledge Distillation for Pre-Trained Models [6.085875355032475]
本研究では,事前学習モデルにおける知識蒸留(KD)プロセスの強化について検討する。
事前訓練されたモデル間で知識を伝達するための多くのKDアプローチが採用されているにもかかわらず、KDの応用に関する包括的な理解は欠如している。
本研究は,標準KD,調整KD(最適化温度および重みパラメータ),深層相互学習,データ分割KDなど,複数のKD技術の比較を行った。
論文 参考訳(メタデータ) (2024-02-22T19:07:08Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Continuation KD: Improved Knowledge Distillation through the Lens of
Continuation Optimization [29.113990037893597]
知識蒸留(KD)は、より大規模なモデル(教師)から知識を伝達することで、小さなモデル(学生)のパフォーマンスを向上させる自然言語理解(NLU)タスクに広く用いられている。
既存のKDテクニックは、教師の出力のノイズを軽減するものではない。
従来の手法と比較して,これらの問題に対処する新しいKD手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T16:00:20Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Undistillable: Making A Nasty Teacher That CANNOT teach students [84.6111281091602]
本論文では,ナスティ・ティーチング(Nasty Teacher)という,通常の教師とほぼ同じパフォーマンスを得られる特別に訓練されたティーチング・ネットワークについて紹介し,研究する。
本稿では, 自負知識蒸留法という, シンプルで効果的な教師構築アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-16T08:41:30Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Knowledge Distillation and Student-Teacher Learning for Visual
Intelligence: A Review and New Outlooks [39.2907363775529]
知識蒸留(KD)は、あるモデルから他のモデルへ学習した情報を伝達するために提案されている。
本稿では,近年積極的に研究されているKDとS-T学習について述べる。
論文 参考訳(メタデータ) (2020-04-13T13:45:38Z) - Modeling Teacher-Student Techniques in Deep Neural Networks for
Knowledge Distillation [9.561123408923489]
知識蒸留(KD)は、学習中の構造物の知識を別のものに移す新しい方法である。
本稿では,KDの一般モデルを構築するために,KDの範囲に関する様々な研究を調査し,分析する。
KDにおける異なるアプローチの利点とデメリットをよりよく理解し、KDの新しい戦略を開発することが可能である。
論文 参考訳(メタデータ) (2019-12-31T05:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。