論文の概要: DisWOT: Student Architecture Search for Distillation WithOut Training
- arxiv url: http://arxiv.org/abs/2303.15678v1
- Date: Tue, 28 Mar 2023 01:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:51:29.906081
- Title: DisWOT: Student Architecture Search for Distillation WithOut Training
- Title(参考訳): DisWOT: 学生がトレーニングなしで蒸留するアーキテクチャ検索
- Authors: Peijie Dong, Lujun Li, Zimian Wei
- Abstract要約: 我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is an effective training strategy to improve the
lightweight student models under the guidance of cumbersome teachers. However,
the large architecture difference across the teacher-student pairs limits the
distillation gains. In contrast to previous adaptive distillation methods to
reduce the teacher-student gap, we explore a novel training-free framework to
search for the best student architectures for a given teacher. Our work first
empirically show that the optimal model under vanilla training cannot be the
winner in distillation. Secondly, we find that the similarity of feature
semantics and sample relations between random-initialized teacher-student
networks have good correlations with final distillation performances. Thus, we
efficiently measure similarity matrixs conditioned on the semantic activation
maps to select the optimal student via an evolutionary algorithm without any
training. In this way, our student architecture search for Distillation WithOut
Training (DisWOT) significantly improves the performance of the model in the
distillation stage with at least 180$\times$ training acceleration.
Additionally, we extend similarity metrics in DisWOT as new distillers and
KD-based zero-proxies. Our experiments on CIFAR, ImageNet and NAS-Bench-201
demonstrate that our technique achieves state-of-the-art results on different
search spaces. Our project and code are available at
https://lilujunai.github.io/DisWOT-CVPR2023/.
- Abstract(参考訳): 知識蒸留(KD)は,教師の指導のもと,軽量な学生モデルを改善するための効果的な訓練戦略である。
しかし、教師と学生のペア間で大きなアーキテクチャの違いは蒸留効果を制限している。
教師と学生のギャップを減らすための従来の適応蒸留法とは対照的に,教師にとって最高の学生アーキテクチャを探すための新しい学習自由フレームワークを探索する。
まず,バニラトレーニングの最適モデルは蒸留の勝者にはなれないことを実証的に示した。
第2に,教師-学生間の特徴意味論の類似性とサンプル関係が,最終蒸留性能と良好な相関関係があることを見出した。
そこで本研究では, セマンティックアクティベーションマップに条件付き類似度行列を効率的に測定し, 進化的アルゴリズムを用いて最適な学生を選択する。
このようにして、学生によるDisWOT(Distillation WithOut Training)の探索は、蒸留段階におけるモデルの性能を少なくとも180$\times$トレーニングアクセラレーションで大幅に向上させる。
さらに,新しい蒸留器やkdベースのゼロプロキシとして,類似度指標をdiswotに拡張した。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
私たちのプロジェクトとコードはhttps://lilujunai.github.io/DisWOT-CVPR2023/で利用可能です。
関連論文リスト
- Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Delta Distillation for Efficient Video Processing [68.81730245303591]
デルタ蒸留と呼ばれる新しい知識蒸留方式を提案する。
ビデオフレーム内の時間的冗長性により,これらの時間的変動を効果的に蒸留できることを実証した。
副産物として、デルタ蒸留は教師モデルの時間的一貫性を向上させる。
論文 参考訳(メタデータ) (2022-03-17T20:13:30Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Inter-Region Affinity Distillation for Road Marking Segmentation [81.3619453527367]
本研究では,大規模な教員ネットワークからより小さな学生ネットワークへ知識を蒸留する問題について検討する。
我々の手法はInter-Region Affinity KD(IntRA-KD)として知られている。
論文 参考訳(メタデータ) (2020-04-11T04:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。