Fugu-MT 論文翻訳(概要): InDistill: Transferring Knowledge From Pruned Intermediate Layers

論文の概要: InDistill: Transferring Knowledge From Pruned Intermediate Layers

arxiv url: http://arxiv.org/abs/2205.10003v1
Date: Fri, 20 May 2022 07:40:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 03:58:01.474379
Title: InDistill: Transferring Knowledge From Pruned Intermediate Layers
Title（参考訳）: indistill: 刈り取られた中間層から知識を移す
Authors: Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Ioannis Kompatsiaris
Abstract要約: 本稿では,既存の単層式知識蒸留法の性能を大幅に向上させる新しい手法InDistillを提案する。提案手法は3つのベンチマーク画像データセットの最先端性能を上回る。
参考スコア（独自算出の注目度）: 19.900515904373247
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deploying deep neural networks on hardware with limited resources, such as smartphones and drones, constitutes a great challenge due to their computational complexity. Knowledge distillation approaches aim at transferring knowledge from a large model to a lightweight one, also known as teacher and student respectively, while distilling the knowledge from intermediate layers provides an additional supervision to that task. The capacity gap between the models, the information encoding that collapses its architectural alignment, and the absence of appropriate learning schemes for transferring multiple layers restrict the performance of existing methods. In this paper, we propose a novel method, termed InDistill, that can drastically improve the performance of existing single-layer knowledge distillation methods by leveraging the properties of channel pruning to both reduce the capacity gap between the models and retain the architectural alignment. Furthermore, we propose a curriculum learning based scheme for enhancing the effectiveness of transferring knowledge from multiple intermediate layers. The proposed method surpasses state-of-the-art performance on three benchmark image datasets.
Abstract（参考訳）: スマートフォンやドローンのような限られたリソースでハードウェア上にディープニューラルネットワークをデプロイすることは、計算の複雑さのために大きな課題となる。知識蒸留のアプローチは、大きなモデルから、それぞれ教師と学生として知られる軽量なモデルに知識を移すことを目標とし、中間層から知識を蒸留することは、そのタスクにさらなる監督を与える。モデル間のキャパシティギャップ、そのアーキテクチャアライメントを崩壊させる情報エンコーディング、および複数のレイヤを転送するための適切な学習スキームの欠如は、既存のメソッドのパフォーマンスを制限している。本稿では, チャネルプルーニングの特性を活用して, モデル間のキャパシティギャップを低減し, アーキテクチャアライメントを維持することにより, 既存の単層式知識蒸留法の性能を大幅に向上させることができる新しい手法InDistillを提案する。さらに,複数の中間層からの知識伝達の有効性を高めるためのカリキュラム学習方式を提案する。提案手法は3つのベンチマーク画像データセットの最先端性能を上回る。

関連論文リスト

Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
One-for-All: Bridge the Gap Between Heterogeneous Architectures in Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文参考訳（メタデータ） (2023-10-30T11:13:02Z)
Guided Distillation for Semi-Supervised Instance Segmentation [29.688029979801577]
本稿では,教師学生の蒸留モデルを大幅に改善するための新しい設計選択について述べる。特に, 新規な「誘導燃焼」段階を導入することにより, 蒸留法の改善を図る。学生モデルのバーンイン期間中に教師付きデータのみを使用する以前の研究とは対照的に,教師モデルの指導を用いて,バーンイン期間中にラベルなしデータを利用する。
論文参考訳（メタデータ） (2023-08-03T13:25:04Z)
Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップこれらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。 DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文参考訳（メタデータ） (2023-05-25T04:49:34Z)
CORSD: Class-Oriented Relational Self Distillation [16.11986532440837]
知識蒸留は、いくつかの制限を保ちながら効果的なモデル圧縮方法を実行する。制約に対処するために,クラス指向自己蒸留(CORSD)という新しいトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-28T16:00:31Z)
CES-KD: Curriculum-based Expert Selection for Guided Knowledge Distillation [4.182345120164705]
本稿では,知識蒸留のためのカリキュラムエキスパート選択法(CES-KD)を提案する。 CES-KDは、階層化された教育カリキュラムを使用して学生ネットワークを徐々にガイドすべきという仮説に基づいている。具体的には、画像の分類の難しさに起因したカリキュラムに基づいて、入力画像ごとに1人の教師を選択する段階的なTAベースのKD手法を提案する。
論文参考訳（メタデータ） (2022-09-15T21:02:57Z)
Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文参考訳（メタデータ） (2022-05-28T16:11:49Z)
Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。 DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文参考訳（メタデータ） (2022-02-16T03:58:21Z)
Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文参考訳（メタデータ） (2021-12-17T14:31:40Z)
RAIL-KD: RAndom Intermediate Layer Mapping for Knowledge Distillation [24.951887361152988]
本稿では,教師モデルから中間層をランダムに選択し,学生モデルの中間層に蒸留するRAIL-KD手法を提案する。我々は,RAIL-KD手法が他の最先端中間層KD法よりも性能と訓練時間の両方で優れていることを示す。
論文参考訳（メタデータ） (2021-09-21T13:21:13Z)
Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。 CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文参考訳（メタデータ） (2020-12-09T08:34:36Z)
Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-05T00:49:14Z)
Contrastive Distillation on Intermediate Representations for Language Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。 CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文参考訳（メタデータ） (2020-09-29T17:31:43Z)
Cascaded channel pruning using hierarchical self-distillation [26.498907514590165]
本稿では,教師,教員,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。本手法では, 対象学生と同じアーキテクチャと重みを共有する中間的プルーニングレベルにおいて, アシスタントを活用できる。
論文参考訳（メタデータ） (2020-08-16T00:19:35Z)
Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文参考訳（メタデータ） (2020-05-02T06:56:56Z)
Inter-Region Affinity Distillation for Road Marking Segmentation [81.3619453527367]
本研究では,大規模な教員ネットワークからより小さな学生ネットワークへ知識を蒸留する問題について検討する。我々の手法はInter-Region Affinity KD(IntRA-KD)として知られている。
論文参考訳（メタデータ） (2020-04-11T04:26:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。