論文の概要: Cascaded channel pruning using hierarchical self-distillation
- arxiv url: http://arxiv.org/abs/2008.06814v1
- Date: Sun, 16 Aug 2020 00:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 11:42:17.409234
- Title: Cascaded channel pruning using hierarchical self-distillation
- Title(参考訳): 階層型自己蒸留を用いたカスケードチャネルプルーニング
- Authors: Roy Miles and Krystian Mikolajczyk
- Abstract要約: 本稿では,教師,教員,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。
本手法では, 対象学生と同じアーキテクチャと重みを共有する中間的プルーニングレベルにおいて, アシスタントを活用できる。
- 参考スコア(独自算出の注目度): 26.498907514590165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an approach for filter-level pruning with
hierarchical knowledge distillation based on the teacher, teaching-assistant,
and student framework. Our method makes use of teaching assistants at
intermediate pruning levels that share the same architecture and weights as the
target student. We propose to prune each model independently using the gradient
information from its corresponding teacher. By considering the relative sizes
of each student-teacher pair, this formulation provides a natural trade-off
between the capacity gap for knowledge distillation and the bias of the filter
saliency updates. Our results show improvements in the attainable accuracy and
model compression across the CIFAR10 and ImageNet classification tasks using
the VGG16and ResNet50 architectures. We provide an extensive evaluation that
demonstrates the benefits of using a varying number of teaching assistant
models at different sizes.
- Abstract(参考訳): 本稿では,教師,教官,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。
本手法は,対象学生と同一のアーキテクチャと重みを有する中間刈り込みレベルにおけるアシスタントの指導を行う。
本稿では,教師の勾配情報を用いて,各モデルを個別に訓練することを提案する。
生徒と教師のペアの相対的なサイズを考慮すると、この定式化は知識蒸留のキャパシティギャップとフィルタ塩分率更新のバイアスとの間に自然なトレードオフをもたらす。
VGG16およびResNet50アーキテクチャを用いたCIFAR10およびImageNet分類タスクにおける達成可能な精度とモデル圧縮の改善を示す。
様々なサイズの教育用アシスタントモデルを使うことの利点を示す広範な評価を提供する。
関連論文リスト
- UNIC: Universal Classification Models via Multi-teacher Distillation [29.299698704883813]
我々は、いくつかの補完的な事前訓練されたモデルから得られるユニークなエンコーダを学ぼうとしている。
このようなエンコーダをマルチティーチンガー蒸留により学習することを提案する。
論文 参考訳(メタデータ) (2024-08-09T14:18:57Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。