論文の概要: Residual Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2002.09168v1
- Date: Fri, 21 Feb 2020 07:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:15:19.503448
- Title: Residual Knowledge Distillation
- Title(参考訳): 残留知識蒸留
- Authors: Mengya Gao, Yujun Shen, Quanquan Li, Chen Change Loy
- Abstract要約: 本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 96.18815134719975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is one of the most potent ways for model
compression. The key idea is to transfer the knowledge from a deep teacher
model (T) to a shallower student (S). However, existing methods suffer from
performance degradation due to the substantial gap between the learning
capacities of S and T. To remedy this problem, this work proposes Residual
Knowledge Distillation (RKD), which further distills the knowledge by
introducing an assistant (A). Specifically, S is trained to mimic the feature
maps of T, and A aids this process by learning the residual error between them.
In this way, S and A complement with each other to get better knowledge from T.
Furthermore, we devise an effective method to derive S and A from a given model
without increasing the total computational cost. Extensive experiments show
that our approach achieves appealing results on popular classification
datasets, CIFAR-100 and ImageNet, surpassing state-of-the-art methods.
- Abstract(参考訳): 知識蒸留(KD)はモデル圧縮の最も強力な方法の一つである。
鍵となる考え方は、知識を深い教師モデル(T)からより浅い学生(S)に移すことである。
しかし, 既存の手法は, SとTの学習能力の相違による性能劣化に悩まされており, この問題を補うために, アシスタント(A)を導入して知識を蒸留するResidual Knowledge Distillation (RKD)を提案する。
具体的には、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
このようにして、SとAは相互に補完し、Tからより良い知識を得る。さらに、計算コストを増大させることなく、与えられたモデルからSとAを導出する効果的な方法が考案される。
広範な実験により,一般的な分類データセットであるcifar-100とimagenetにおいて,最先端の手法を超越した魅力的な結果が得られた。
関連論文リスト
- Learning to Maximize Mutual Information for Chain-of-Thought
Distillation [14.47452997404004]
CoT蒸留を利用した新しい手法であるDistilling Step-by-Step (DSS) は、より大型のモデルに対して優れた推論能力を持つ小型モデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
本稿では,この最適化問題を学習に基づく手法を用いて解くための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Confidence Conditioned Knowledge Distillation [8.09591217280048]
教師モデルから学生モデルに知識を伝達するための信頼性条件付き知識蒸留(CCKD)方式を提案する。
CCKDは、教師モデルに割り当てられた信頼度を正しいクラスに利用して、サンプル固有の損失関数とターゲットを考案することで、これらの問題に対処する。
いくつかのベンチマークデータセットに対する実証的な評価は、CCKD法が他の最先端手法と同等以上の一般化性能を達成していることを示している。
論文 参考訳(メタデータ) (2021-07-06T00:33:25Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Computation-Efficient Knowledge Distillation via Uncertainty-Aware Mixup [91.1317510066954]
我々は, 知識蒸留効率という, ささやかだが重要な質問について研究する。
我々のゴールは、訓練中に計算コストの低い従来の知識蒸留に匹敵する性能を達成することである。
我々は,Uncertainty-aware mIXup (UNIX) がクリーンで効果的なソリューションであることを示す。
論文 参考訳(メタデータ) (2020-12-17T06:52:16Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。