論文の概要: Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation
- arxiv url: http://arxiv.org/abs/2202.03680v1
- Date: Tue, 8 Feb 2022 07:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 13:48:38.037563
- Title: Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation
- Title(参考訳): 多様性保存型知識蒸留のためのチャネル間相関の探索
- Authors: Li Liu, Qingle Huang, Sihao Lin, Hongwei Xie, Bing Wang, Xiaojun
Chang, Xiaodan Liang
- Abstract要約: ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
- 参考スコア(独自算出の注目度): 91.56643684860062
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge Distillation has shown very promising abil-ity in transferring
learned representation from the largermodel (teacher) to the smaller one
(student).Despitemany efforts, prior methods ignore the important role
ofretaining inter-channel correlation of features, leading tothe lack of
capturing intrinsic distribution of the featurespace and sufficient diversity
properties of features in theteacher network.To solve the issue, we propose
thenovel Inter-Channel Correlation for Knowledge Distillation(ICKD), with which
the diversity and homology of the fea-ture space of the student network can
align with that ofthe teacher network. The correlation between these
twochannels is interpreted as diversity if they are irrelevantto each other,
otherwise homology. Then the student isrequired to mimic the correlation within
its own embed-ding space. In addition, we introduce the grid-level
inter-channel correlation, making it capable of dense predictiontasks.
Extensive experiments on two vision tasks, includ-ing ImageNet classification
and Pascal VOC segmentation,demonstrate the superiority of our ICKD, which
consis-tently outperforms many existing methods, advancing thestate-of-the-art
in the fields of Knowledge Distillation. Toour knowledge, we are the first
method based on knowl-edge distillation boosts ResNet18 beyond 72% Top-1
ac-curacy on ImageNet classification. Code is available
at:https://github.com/ADLab-AutoDrive/ICKD.
- Abstract(参考訳): 知識蒸留は、より大きいモデル(教師)から小さいモデル(学生)への学習表現の移動において、非常に有望な安定化を示す。
先行手法では,特徴のチャネル間相関を維持できる重要な役割を無視し,教師ネットワークにおける特徴空間の内在的分布と特徴の十分な多様性特性を捉えることが困難となり,この問題を解決するために,学生ネットワークのフェアチュール空間の多様性と相同性が教師ネットワークと整合できる知識蒸留のためのthenovel inter-channel correlation for knowledge distillation(ickd)を提案する。
これら二つのチャネル間の相関は、それらが互いに無関係でなければ多様性であると解釈される。
その後、学生は自身の埋め込み空間内で相関関係を模倣する必要がある。
さらに、グリッドレベルのチャネル間相関を導入し、密な予測タスクを実現する。
includ-ing imagenet classificationとpascal voc segmentationの2つの視覚課題に関する広範囲な実験は、既存の多くの方法に勝り、知識蒸留の分野における最先端の進歩である、我々のicckdの優位性を実証している。
我々の知る限りでは,imagenet分類において,knowl-edge蒸留がresnet18を72%以上増加させる最初の方法である。
コードは、https://github.com/ADLab-AutoDrive/ICKDで入手できる。
関連論文リスト
- I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation [1.433758865948252]
本稿では,イメージセマンティックセグメンテーションに適した新しい知識蒸留法を提案する。
本手法の焦点は,教師(面倒なモデル)と生徒(コンパクトモデル)の中間層間の知識の獲得と伝達である。
論文 参考訳(メタデータ) (2024-03-27T12:05:22Z) - Direct Distillation between Different Domains [97.39470334253163]
異なるドメイン間の直接蒸留(4Ds)と呼ばれる新しいワンステージ手法を提案する。
まず、Fourier変換に基づいて学習可能なアダプタを設計し、ドメイン固有の知識からドメイン不変知識を分離する。
次に、価値あるドメイン不変知識を学生ネットワークに転送するための融合活性化機構を構築する。
論文 参考訳(メタデータ) (2024-01-12T02:48:51Z) - Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation [12.177329445930276]
我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:45:37Z) - Knowledge Distillation Meets Open-Set Semi-Supervised Learning [69.21139647218456]
本研究では,事前学習した教師から対象学生へ,表現的知識を意味的に蒸留する新しいモデル名(bfem shortname)を提案する。
問題レベルでは、これは知識蒸留とオープンセット半教師付き学習(SSL)との興味深い関係を確立する。
我々のショートネームは、粗い物体分類と微妙な顔認識タスクの両方において、最先端の知識蒸留法よりもかなり優れている。
論文 参考訳(メタデータ) (2022-05-13T15:15:27Z) - Channel Self-Supervision for Online Knowledge Distillation [14.033675223173933]
オンライン知識蒸留(CSS)のための新しいオンライン知識蒸留法, textbfChannel textbfSelf-textbfSupervisionを提案する。
我々は,マルチブランチ構造を構築し,自己教師付き学習を通じて分岐間多様性を向上させる。
提案手法はOKDDipよりも多様性が高く,PCLのような最先端技術でも高い性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-22T12:35:20Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。