論文の概要: InDistill: Transferring Knowledge From Pruned Intermediate Layers
- arxiv url: http://arxiv.org/abs/2205.10003v1
- Date: Fri, 20 May 2022 07:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 03:58:01.474379
- Title: InDistill: Transferring Knowledge From Pruned Intermediate Layers
- Title(参考訳): indistill: 刈り取られた中間層から知識を移す
- Authors: Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Ioannis
Kompatsiaris
- Abstract要約: 本稿では,既存の単層式知識蒸留法の性能を大幅に向上させる新しい手法InDistillを提案する。
提案手法は3つのベンチマーク画像データセットの最先端性能を上回る。
- 参考スコア(独自算出の注目度): 19.900515904373247
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deploying deep neural networks on hardware with limited resources, such as
smartphones and drones, constitutes a great challenge due to their
computational complexity. Knowledge distillation approaches aim at transferring
knowledge from a large model to a lightweight one, also known as teacher and
student respectively, while distilling the knowledge from intermediate layers
provides an additional supervision to that task. The capacity gap between the
models, the information encoding that collapses its architectural alignment,
and the absence of appropriate learning schemes for transferring multiple
layers restrict the performance of existing methods. In this paper, we propose
a novel method, termed InDistill, that can drastically improve the performance
of existing single-layer knowledge distillation methods by leveraging the
properties of channel pruning to both reduce the capacity gap between the
models and retain the architectural alignment. Furthermore, we propose a
curriculum learning based scheme for enhancing the effectiveness of
transferring knowledge from multiple intermediate layers. The proposed method
surpasses state-of-the-art performance on three benchmark image datasets.
- Abstract(参考訳): スマートフォンやドローンのような限られたリソースでハードウェア上にディープニューラルネットワークをデプロイすることは、計算の複雑さのために大きな課題となる。
知識蒸留のアプローチは、大きなモデルから、それぞれ教師と学生として知られる軽量なモデルに知識を移すことを目標とし、中間層から知識を蒸留することは、そのタスクにさらなる監督を与える。
モデル間のキャパシティギャップ、そのアーキテクチャアライメントを崩壊させる情報エンコーディング、および複数のレイヤを転送するための適切な学習スキームの欠如は、既存のメソッドのパフォーマンスを制限している。
本稿では, チャネルプルーニングの特性を活用して, モデル間のキャパシティギャップを低減し, アーキテクチャアライメントを維持することにより, 既存の単層式知識蒸留法の性能を大幅に向上させることができる新しい手法InDistillを提案する。
さらに,複数の中間層からの知識伝達の有効性を高めるためのカリキュラム学習方式を提案する。
提案手法は3つのベンチマーク画像データセットの最先端性能を上回る。
関連論文リスト
- One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Guided Distillation for Semi-Supervised Instance Segmentation [29.688029979801577]
本稿では,教師学生の蒸留モデルを大幅に改善するための新しい設計選択について述べる。
特に, 新規な「誘導燃焼」段階を導入することにより, 蒸留法の改善を図る。
学生モデルのバーンイン期間中に教師付きデータのみを使用する以前の研究とは対照的に,教師モデルの指導を用いて,バーンイン期間中にラベルなしデータを利用する。
論文 参考訳(メタデータ) (2023-08-03T13:25:04Z) - CORSD: Class-Oriented Relational Self Distillation [16.11986532440837]
知識蒸留は、いくつかの制限を保ちながら効果的なモデル圧縮方法を実行する。
制約に対処するために,クラス指向自己蒸留(CORSD)という新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-28T16:00:31Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。
我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T13:21:13Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Cascaded channel pruning using hierarchical self-distillation [26.498907514590165]
本稿では,教師,教員,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。
本手法では, 対象学生と同じアーキテクチャと重みを共有する中間的プルーニングレベルにおいて, アシスタントを活用できる。
論文 参考訳(メタデータ) (2020-08-16T00:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。