論文の概要: InDistill: Information flow-preserving knowledge distillation for model compression
- arxiv url: http://arxiv.org/abs/2205.10003v4
- Date: Wed, 22 Jan 2025 09:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:56.795885
- Title: InDistill: Information flow-preserving knowledge distillation for model compression
- Title(参考訳): InDistill: モデル圧縮のための情報フロー保存知識蒸留
- Authors: Ioannis Sarridis, Christos Koutlis, Giorgos Kordopatis-Zilos, Ioannis Kompatsiaris, Symeon Papadopoulos,
- Abstract要約: 本稿では,知識蒸留(KD)の有効性のウォームアップ段階として機能するInDistillを紹介する。
InDistillは、重厚な教師から軽量な学生に重要な情報の流れの経路を移すことに重点を置いている。
提案手法は, CIFAR-10, CIFAR-100, ImageNetデータセット上で, 教師/学生の多様なアーキテクチャを用いて広範に評価されている。
- 参考スコア(独自算出の注目度): 20.88709060450944
- License:
- Abstract: In this paper, we introduce InDistill, a method that serves as a warmup stage for enhancing Knowledge Distillation (KD) effectiveness. InDistill focuses on transferring critical information flow paths from a heavyweight teacher to a lightweight student. This is achieved via a training scheme based on curriculum learning that considers the distillation difficulty of each layer and the critical learning periods when the information flow paths are established. This procedure can lead to a student model that is better prepared to learn from the teacher. To ensure the applicability of InDistill across a wide range of teacher-student pairs, we also incorporate a pruning operation when there is a discrepancy in the width of the teacher and student layers. This pruning operation reduces the width of the teacher's intermediate layers to match those of the student, allowing direct distillation without the need for an encoding stage. The proposed method is extensively evaluated using various pairs of teacher-student architectures on CIFAR-10, CIFAR-100, and ImageNet datasets demonstrating that preserving the information flow paths consistently increases the performance of the baseline KD approaches on both classification and retrieval settings. The code is available at https://github.com/gsarridis/InDistill.
- Abstract(参考訳): 本稿では,知識蒸留(KD)の有効性を高めるためのウォームアップ段階として機能するInDistillを紹介する。
InDistillは、重厚な教師から軽量な学生に重要な情報の流れの経路を移すことに重点を置いている。
これは、各層の蒸留難度と情報流路の確立時の臨界学習期間を考慮に入れたカリキュラム学習に基づくトレーニングスキームによって達成される。
この手順は、教師から学ぶ準備が整った学生モデルにつながる可能性がある。
InDistillの適用性を確保するため,教師層と学生層の幅に相違がある場合に,プルーニング操作を組み込む。
このプルーニング操作は、教師の中間層が生徒のものと一致するように幅を減らし、エンコーディングステージを必要とせずに直接蒸留することができる。
提案手法は, CIFAR-10, CIFAR-100, ImageNetデータセット上で, 情報フロー経路の保存が, 分類と検索設定の両方において, ベースラインKDアプローチの性能を一貫して向上させることを示す各種の教師学生アーキテクチャを用いて, 広範に評価されている。
コードはhttps://github.com/gsarridis/InDistill.comから入手できる。
関連論文リスト
- One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Guided Distillation for Semi-Supervised Instance Segmentation [29.688029979801577]
本稿では,教師学生の蒸留モデルを大幅に改善するための新しい設計選択について述べる。
特に, 新規な「誘導燃焼」段階を導入することにより, 蒸留法の改善を図る。
学生モデルのバーンイン期間中に教師付きデータのみを使用する以前の研究とは対照的に,教師モデルの指導を用いて,バーンイン期間中にラベルなしデータを利用する。
論文 参考訳(メタデータ) (2023-08-03T13:25:04Z) - CORSD: Class-Oriented Relational Self Distillation [16.11986532440837]
知識蒸留は、いくつかの制限を保ちながら効果的なモデル圧縮方法を実行する。
制約に対処するために,クラス指向自己蒸留(CORSD)という新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-28T16:00:31Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。
我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文 参考訳(メタデータ) (2021-09-21T13:21:13Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Cascaded channel pruning using hierarchical self-distillation [26.498907514590165]
本稿では,教師,教員,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。
本手法では, 対象学生と同じアーキテクチャと重みを共有する中間的プルーニングレベルにおいて, アシスタントを活用できる。
論文 参考訳(メタデータ) (2020-08-16T00:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。