論文の概要: Adaptive Distillation: Aggregating Knowledge from Multiple Paths for
Efficient Distillation
- arxiv url: http://arxiv.org/abs/2110.09674v1
- Date: Tue, 19 Oct 2021 00:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-21 01:22:05.944705
- Title: Adaptive Distillation: Aggregating Knowledge from Multiple Paths for
Efficient Distillation
- Title(参考訳): 適応蒸留:効率的な蒸留のための複数経路からの知識の集約
- Authors: Sumanth Chennupati, Mohammad Mahdi Kamani, Zhongwei Cheng, Lin Chen
- Abstract要約: ニューラルネットワーク圧縮アルゴリズムの主なトレンドの1つに、知識蒸留がある。
本稿では,マルチタスク学習に基づく適応手法を提案する。
本稿では, 知識蒸留の分類, セマンティックセグメンテーション, オブジェクト検出タスクへの応用について, 他のベースラインに対する提案手法の有効性を実証的に示す。
- 参考スコア(独自算出の注目度): 15.337420940135704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation is becoming one of the primary trends among neural
network compression algorithms to improve the generalization performance of a
smaller student model with guidance from a larger teacher model. This momentous
rise in applications of knowledge distillation is accompanied by the
introduction of numerous algorithms for distilling the knowledge such as soft
targets and hint layers. Despite this advancement in different techniques for
distilling the knowledge, the aggregation of different paths for distillation
has not been studied comprehensively. This is of particular significance, not
only because different paths have different importance, but also due to the
fact that some paths might have negative effects on the generalization
performance of the student model. Hence, we need to adaptively adjust the
importance of each path to maximize the impact of distillation on the student
model. In this paper, we explore different approaches for aggregating these
different paths and introduce our proposed adaptive approach based on multitask
learning methods. We empirically demonstrate the effectiveness of the proposed
approach over other baselines on the applications of knowledge distillation in
classification, semantic segmentation, and object detection tasks.
- Abstract(参考訳): ニューラルネットワーク圧縮アルゴリズムでは,より大規模な教師モデルからの指導により,より小さな学生モデルの一般化性能を向上させるため,知識蒸留が主要なトレンドとなっている。
知識蒸留の応用のこの瞬間的な増加は、ソフトターゲットやヒント層などの知識を蒸留するための多数のアルゴリズムの導入に伴う。
このような知識の蒸留技術の発展にもかかわらず、蒸留のための異なる経路の集約は包括的に研究されていない。
これは特に重要なことであり、異なる経路が異なる重要性を持つだけでなく、ある経路が学生モデルの一般化性能に悪影響を及ぼすという事実によってもたらされる。
したがって,蒸留が学生モデルに与える影響を最大化するために,各経路の重要性を適応的に調整する必要がある。
本稿では,これらの経路を集約するための異なるアプローチを検討し,マルチタスク学習法に基づく適応的アプローチを提案する。
分類,意味セグメンテーション,オブジェクト検出タスクにおける知識蒸留の応用において,提案手法が他のベースラインよりも有効であることを実証的に示す。
関連論文リスト
- AdaKD: Dynamic Knowledge Distillation of ASR models using Adaptive Loss Weighting [5.818420448447701]
適応的知識蒸留(Adaptive Knowledge Distillation, Adaptive Knowledge Distillation)は, カリキュラム学習にインスパイアされた新しい手法であり, 事例レベルでの損失を適応的に評価する。
提案手法は,任意のタスク固有および蒸留目的に対して適用可能なプラグアンドプレイパラダイムに従っている。
論文 参考訳(メタデータ) (2024-05-11T15:06:24Z) - AICSD: Adaptive Inter-Class Similarity Distillation for Semantic
Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。
提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。
セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-08-08T13:17:20Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。
我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文 参考訳(メタデータ) (2022-08-11T05:08:55Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Distilling Image Classifiers in Object Detectors [81.63849985128527]
本研究では, 物体検出の事例について検討し, 標準検出器-検出器蒸留法に従わず, 分類器-検出器間知識伝達フレームワークを導入する。
特に,検知器の認識精度とローカライゼーション性能を両立させるため,分類教師を利用する手法を提案する。
論文 参考訳(メタデータ) (2021-06-09T16:50:10Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - There and Back Again: Revisiting Backpropagation Saliency Methods [87.40330595283969]
正当性法は,各入力サンプルの重要度マップを作成することによって,モデルの予測を説明する。
このような手法の一般的なクラスは、信号のバックプロパゲートと結果の勾配の分析に基づいている。
本稿では,そのような手法を統一可能な単一のフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:58:08Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。