論文の概要: LAKD-Activation Mapping Distillation Based on Local Learning
- arxiv url: http://arxiv.org/abs/2408.11478v1
- Date: Wed, 21 Aug 2024 09:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:39:23.936753
- Title: LAKD-Activation Mapping Distillation Based on Local Learning
- Title(参考訳): 局所学習に基づくLAKD活性化マッピング蒸留
- Authors: Yaoze Zhang, Yuming Zhang, Yu Zhao, Yue Zhang, Feiyu Zhu,
- Abstract要約: 本稿では,新しい知識蒸留フレームワークであるローカル注意知識蒸留(LAKD)を提案する。
LAKDは、教師ネットワークからの蒸留情報をより効率的に利用し、高い解釈性と競争性能を実現する。
CIFAR-10, CIFAR-100, ImageNetのデータセットについて実験を行い, LAKD法が既存手法より有意に優れていたことを示す。
- 参考スコア(独自算出の注目度): 12.230042188890838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is widely applied in various fundamental vision models to enhance the performance of compact models. Existing knowledge distillation methods focus on designing different distillation targets to acquire knowledge from teacher models. However, these methods often overlook the efficient utilization of distilled information, crudely coupling different types of information, making it difficult to explain how the knowledge from the teacher network aids the student network in learning. This paper proposes a novel knowledge distillation framework, Local Attention Knowledge Distillation (LAKD), which more efficiently utilizes the distilled information from teacher networks, achieving higher interpretability and competitive performance. The framework establishes an independent interactive training mechanism through a separation-decoupling mechanism and non-directional activation mapping. LAKD decouples the teacher's features and facilitates progressive interaction training from simple to complex. Specifically, the student network is divided into local modules with independent gradients to decouple the knowledge transferred from the teacher. The non-directional activation mapping helps the student network integrate knowledge from different local modules by learning coarse-grained feature knowledge. We conducted experiments on the CIFAR-10, CIFAR-100, and ImageNet datasets, and the results show that our LAKD method significantly outperforms existing methods, consistently achieving state-of-the-art performance across different datasets.
- Abstract(参考訳): 知識蒸留は、コンパクトモデルの性能を高めるために、様々な基本的な視覚モデルに広く応用されている。
既存の知識蒸留法は、教師モデルから知識を得るために異なる蒸留ターゲットを設計することに焦点を当てている。
しかし、これらの手法は、しばしば蒸留された情報の効率的な利用を見落とし、様々な種類の情報を密結合させ、教師ネットワークからの知識が学習のネットワークにどのように役立つかを説明することは困難である。
本稿では,教師ネットワークからの蒸留情報をより効率的に活用し,高い解釈性と競争性能を実現する,新たな知識蒸留フレームワークであるLAKDを提案する。
このフレームワークは、分離分離分離機構と非指向性アクティベーションマッピングを通じて、独立した対話的トレーニング機構を確立する。
LAKDは教師の特徴を分離し、単純なものから複雑なものへと進歩的な相互作用訓練を促進する。
具体的には、生徒ネットワークは、教師から受け継がれた知識を分離するために、独立した勾配を持つローカルモジュールに分割される。
非方向性のアクティベーションマッピングにより、学生ネットワークは、粗い特徴知識を学習することで、異なるローカルモジュールからの知識を統合することができる。
CIFAR-10, CIFAR-100, ImageNetデータセットについて実験を行った結果, LAKD法は既存の手法よりも優れており, 常に異なるデータセットにおける最先端性能を実現していることがわかった。
関連論文リスト
- Student-Oriented Teacher Knowledge Refinement for Knowledge Distillation [11.754014876977422]
本報告では,学生のニーズに合うように教師の知識を改良し,学生を意識した視点を新たに導入する。
本稿では,訓練中に学習可能な機能拡張戦略を取り入れた学生指向知識蒸留(SoKD)について紹介する。
また,教師と学生の相互関心領域を特定するために,DAM(Distinctive Area Detection Module)をデプロイした。
論文 参考訳(メタデータ) (2024-09-27T14:34:08Z) - Hint-dynamic Knowledge Distillation [30.40008256306688]
HKDと呼ばれるHint-dynamic Knowledge Distillationは、動的スキームで教師のヒントから知識を抽出する。
メタウェイトネットワークを導入し、知識ヒントに関するインスタンス単位の重み係数を生成する。
CIFAR-100とTiny-ImageNetの標準ベンチマークの実験では、提案したHKDが知識蒸留タスクの効果を高めることが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:03:53Z) - Learning Knowledge Representation with Meta Knowledge Distillation for
Single Image Super-Resolution [82.89021683451432]
単一画像超解像課題に対する教師/学生アーキテクチャに基づくモデルに依存しないメタ知識蒸留法を提案する。
種々の単一画像超解像データセットを用いた実験により,提案手法は既存の知識表現関連蒸留法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-18T02:41:04Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - Refine Myself by Teaching Myself: Feature Refinement via Self-Knowledge
Distillation [12.097302014936655]
本論文では,FRSKD (Self-Knowledge Distillation) による自己知識蒸留法を提案する。
提案手法であるFRSKDは,ソフトラベルと特徴マップ蒸留の両方を自己知識蒸留に利用できる。
様々なタスクとベンチマークデータセットのパフォーマンス改善を列挙することで、frskdの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-15T10:59:43Z) - Collaborative Teacher-Student Learning via Multiple Knowledge Transfer [79.45526596053728]
複数知識伝達(CTSL-MKT)による協調学習を提案する。
複数の学生が協調的な方法で個々のインスタンスとインスタンスの関係の両方から知識を学ぶことができます。
4つの画像データセットの実験とアブレーション研究は、提案したCTSL-MKTが最先端のKD法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2021-01-21T07:17:04Z) - Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-12-17T18:34:45Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Interactive Knowledge Distillation [79.12866404907506]
本稿では,効率的な知識蒸留のための対話型指導戦略を活用するために,対話型知識蒸留方式を提案する。
蒸留工程では,教師と学生のネットワーク間の相互作用を交換操作により行う。
教員ネットワークの典型的な設定による実験により,IAKDで訓練された学生ネットワークは,従来の知識蒸留法で訓練された学生ネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-03T03:22:04Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。