論文の概要: InDistill: Transferring Knowledge From Pruned Intermediate Layers
- arxiv url: http://arxiv.org/abs/2205.10003v1
- Date: Fri, 20 May 2022 07:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 03:58:01.474379
- Title: InDistill: Transferring Knowledge From Pruned Intermediate Layers
- Title(参考訳): indistill: 刈り取られた中間層から知識を移す
- Authors: Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Ioannis
Kompatsiaris
- Abstract要約: 本稿では,既存の単層式知識蒸留法の性能を大幅に向上させる新しい手法InDistillを提案する。
提案手法は3つのベンチマーク画像データセットの最先端性能を上回る。
- 参考スコア(独自算出の注目度): 19.900515904373247
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deploying deep neural networks on hardware with limited resources, such as
smartphones and drones, constitutes a great challenge due to their
computational complexity. Knowledge distillation approaches aim at transferring
knowledge from a large model to a lightweight one, also known as teacher and
student respectively, while distilling the knowledge from intermediate layers
provides an additional supervision to that task. The capacity gap between the
models, the information encoding that collapses its architectural alignment,
and the absence of appropriate learning schemes for transferring multiple
layers restrict the performance of existing methods. In this paper, we propose
a novel method, termed InDistill, that can drastically improve the performance
of existing single-layer knowledge distillation methods by leveraging the
properties of channel pruning to both reduce the capacity gap between the
models and retain the architectural alignment. Furthermore, we propose a
curriculum learning based scheme for enhancing the effectiveness of
transferring knowledge from multiple intermediate layers. The proposed method
surpasses state-of-the-art performance on three benchmark image datasets.
- Abstract(参考訳): スマートフォンやドローンのような限られたリソースでハードウェア上にディープニューラルネットワークをデプロイすることは、計算の複雑さのために大きな課題となる。
知識蒸留のアプローチは、大きなモデルから、それぞれ教師と学生として知られる軽量なモデルに知識を移すことを目標とし、中間層から知識を蒸留することは、そのタスクにさらなる監督を与える。
モデル間のキャパシティギャップ、そのアーキテクチャアライメントを崩壊させる情報エンコーディング、および複数のレイヤを転送するための適切な学習スキームの欠如は、既存のメソッドのパフォーマンスを制限している。
本稿では, チャネルプルーニングの特性を活用して, モデル間のキャパシティギャップを低減し, アーキテクチャアライメントを維持することにより, 既存の単層式知識蒸留法の性能を大幅に向上させることができる新しい手法InDistillを提案する。
さらに,複数の中間層からの知識伝達の有効性を高めるためのカリキュラム学習方式を提案する。
提案手法は3つのベンチマーク画像データセットの最先端性能を上回る。
関連論文リスト
- Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - CES-KD: Curriculum-based Expert Selection for Guided Knowledge
Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。
CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。
具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文 参考訳(メタデータ) (2022-09-15T21:02:57Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。
DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文 参考訳(メタデータ) (2022-02-16T03:58:21Z) - RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。
我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T13:21:13Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Cascaded channel pruning using hierarchical self-distillation [26.498907514590165]
本稿では,教師,教員,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。
本手法では, 対象学生と同じアーキテクチャと重みを共有する中間的プルーニングレベルにおいて, アシスタントを活用できる。
論文 参考訳(メタデータ) (2020-08-16T00:19:35Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Inter-Region Affinity Distillation for Road Marking Segmentation [81.3619453527367]
本研究では,大規模な教員ネットワークからより小さな学生ネットワークへ知識を蒸留する問題について検討する。
我々の手法はInter-Region Affinity KD(IntRA-KD)として知られている。
論文 参考訳(メタデータ) (2020-04-11T04:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。