論文の概要: Heterogeneous Knowledge Distillation using Information Flow Modeling
- arxiv url: http://arxiv.org/abs/2005.00727v1
- Date: Sat, 2 May 2020 06:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:42:12.243388
- Title: Heterogeneous Knowledge Distillation using Information Flow Modeling
- Title(参考訳): 情報フローモデリングを用いた異種知識蒸留
- Authors: Nikolaos Passalis, Maria Tzelepi, Anastasios Tefas
- Abstract要約: 教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
- 参考スコア(独自算出の注目度): 82.83891707250926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge Distillation (KD) methods are capable of transferring the knowledge
encoded in a large and complex teacher into a smaller and faster student. Early
methods were usually limited to transferring the knowledge only between the
last layers of the networks, while latter approaches were capable of performing
multi-layer KD, further increasing the accuracy of the student. However,
despite their improved performance, these methods still suffer from several
limitations that restrict both their efficiency and flexibility. First,
existing KD methods typically ignore that neural networks undergo through
different learning phases during the training process, which often requires
different types of supervision for each one. Furthermore, existing multi-layer
KD methods are usually unable to effectively handle networks with significantly
different architectures (heterogeneous KD). In this paper we propose a novel KD
method that works by modeling the information flow through the various layers
of the teacher model and then train a student model to mimic this information
flow. The proposed method is capable of overcoming the aforementioned
limitations by using an appropriate supervision scheme during the different
phases of the training process, as well as by designing and training an
appropriate auxiliary teacher model that acts as a proxy model capable of
"explaining" the way the teacher works to the student. The effectiveness of the
proposed method is demonstrated using four image datasets and several different
evaluation setups.
- Abstract(参考訳): 知識蒸留(kd)法は、大きく複雑な教師にコード化された知識をより小さく高速な生徒に移すことができる。
初期の手法は通常、ネットワークの最後の層間でのみ知識を転送することに限定されていたが、後者の手法では多層KDを実行することができ、学生の精度をさらに高めた。
しかし、性能が向上したにもかかわらず、これらの手法は効率と柔軟性の両方を制限するいくつかの制限に悩まされている。
まず、既存のKD手法は、トレーニングプロセス中に異なる学習フェーズを経てニューラルネットワークが実行されることを無視する。
さらに、既存の多層KD法は、異なるアーキテクチャ(異種KD)のネットワークを効果的に扱うことができないことが多い。
本稿では,教師モデルの様々な層を流れる情報の流れをモデル化し,その情報の流れを模倣するために学生モデルを訓練する新しいKD手法を提案する。
提案手法は,学習過程の異なる段階において,適切な指導スキームを用いることで,上記の制限を克服し,教師が生徒の働き方を"説明"できるプロキシモデルとして機能する適切な補助教師モデルを設計・訓練することにより,その限界を克服することができる。
提案手法の有効性を4つの画像データセットと複数の異なる評価設定を用いて示す。
関連論文リスト
- Revisiting Knowledge Distillation for Autoregressive Language Models [94.09543805992233]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - Distilling Privileged Multimodal Information for Expression Recognition
using Optimal Transport [48.93868076986549]
本稿では、エントロピー規則化されたOTが構造的な暗黒知識を蒸留する最適輸送(OT)に基づく新しい構造的KD機構を提案する。
痛み推定と覚醒価予測の2つの異なる問題について実験を行った。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Continuation KD: Improved Knowledge Distillation through the Lens of
Continuation Optimization [29.113990037893597]
知識蒸留(KD)は、より大規模なモデル(教師)から知識を伝達することで、小さなモデル(学生)のパフォーマンスを向上させる自然言語理解(NLU)タスクに広く用いられている。
既存のKDテクニックは、教師の出力のノイズを軽減するものではない。
従来の手法と比較して,これらの問題に対処する新しいKD手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T16:00:20Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Distilling and Transferring Knowledge via cGAN-generated Samples for
Image Classification and Regression [17.12028267150745]
条件付き生成逆ネットワーク(cGAN)に基づく統一KDフレームワークを提案する。
cGAN-KDは、cGAN生成サンプルを介して教師モデルから学生モデルに知識を蒸留および転送します。
CIFAR-10とTiny-ImageNetの実験では、KDメソッドをcGAN-KDフレームワークに組み込むことで、新しい最先端技術に到達できることが示されている。
論文 参考訳(メタデータ) (2021-04-07T14:52:49Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。