論文の概要: OVO: One-shot Vision Transformer Search with Online distillation
- arxiv url: http://arxiv.org/abs/2212.13766v1
- Date: Wed, 28 Dec 2022 10:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:37:01.920865
- Title: OVO: One-shot Vision Transformer Search with Online distillation
- Title(参考訳): OVO:オンライン蒸留によるワンショットビジョントランスフォーマー検索
- Authors: Zimian Wei, Hengyue Pan, Xin Niu, Dongsheng Li
- Abstract要約: オンライン蒸留(OVO)を用いたワンショットビジョントランスフォーマー検索フレームワークを提案する。
OVOは、蒸留結果を改善するために教師ネットワークと学生ネットワークの両方のサブネットをサンプリングする。
OVO-TiはImageNetで73.32%、CIFAR-100で75.2%の精度を達成した。
- 参考スコア(独自算出の注目度): 12.793893108426742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pure transformers have shown great potential for vision tasks recently.
However, their accuracy in small or medium datasets is not satisfactory.
Although some existing methods introduce a CNN as a teacher to guide the
training process by distillation, the gap between teacher and student networks
would lead to sub-optimal performance. In this work, we propose a new One-shot
Vision transformer search framework with Online distillation, namely OVO. OVO
samples sub-nets for both teacher and student networks for better distillation
results. Benefiting from the online distillation, thousands of subnets in the
supernet are well-trained without extra finetuning or retraining. In
experiments, OVO-Ti achieves 73.32% top-1 accuracy on ImageNet and 75.2% on
CIFAR-100, respectively.
- Abstract(参考訳): 最近、純粋なトランスフォーマーはビジョンタスクに大きな可能性を示しています。
しかし、中小のデータセットでの精度は十分ではない。
既存の方法では, 蒸留による指導過程を指導する教師としてcnnを導入する方法もあるが, 教師と生徒のネットワーク間のギャップは, 準最適性能に繋がる。
本研究では,オンライン蒸留を用いたワンショットビジョントランスフォーマー検索フレームワーク,すなわちOVOを提案する。
OVOは、蒸留結果を改善するために教師ネットワークと学生ネットワークの両方のサブネットをサンプリングする。
オンライン蒸留により、スーパーネットの何千ものサブネットは、余分な微調整や再訓練なしに十分に訓練されている。
実験では、OVO-TiはImageNetで73.32%、CIFAR-100で75.2%の精度を達成した。
関連論文リスト
- ScaleKD: Strong Vision Transformers Could Be Excellent Teachers [15.446480934024652]
本稿では, 簡便かつ効果的な知識蒸留法であるScaleKDを提案する。
本手法は,画像分類データセット上で,さまざまな畳み込みニューラルネットワーク(CNN),多層パーセプトロン(MLP),ViTアーキテクチャにまたがる学生のバックボーンを訓練することができる。
教師モデルやその事前学習データセットのサイズをスケールアップする際,提案手法は所望のスケーラブルな特性を示す。
論文 参考訳(メタデータ) (2024-11-11T08:25:21Z) - TVT: Training-Free Vision Transformer Search on Tiny Datasets [32.1204216324339]
トレーニングフリービジョントランスフォーマー(ViT)アーキテクチャサーチは、コストゼロのプロキシを持つより良いViTを探すために提示される。
私たちのTVTは、教師が認識するメトリックと生徒の能力のメトリクスを使って、ConvNetの教師と蒸留するのに最適なViTを検索します。
論文 参考訳(メタデータ) (2023-11-24T08:24:31Z) - Reduce, Reuse, Recycle: Improving Training Efficiency with Distillation [16.518388294082673]
我々は,ImageNet と BERT で訓練した ResNet-50 と C4 で訓練した ResNet-50 を用いて,蒸留を加速させる方法について検討した。
GLUEで評価すると,ImageNetでトレーニングしたResNet-50の1.96倍,BERTで最大1.42倍のトレーニングを高速化できることがわかった。
また,低品質モデルを教師として用いた場合においても,蒸留によるトレーニングは,蒸留なしでのトレーニングよりもほぼ常に効率的であることがわかった。
論文 参考訳(メタデータ) (2022-11-01T18:16:00Z) - PROD: Progressive Distillation for Dense Retrieval [65.83300173604384]
良質な教師モデルでは,教師と生徒の間には不可解なギャップがあるため,蒸留によって悪い生徒が生まれることが一般的である。
本稿では,高密度検索のためのプログレッシブ蒸留法であるPRDを提案する。
論文 参考訳(メタデータ) (2022-09-27T12:40:29Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - LGD: Label-guided Self-distillation for Object Detection [59.9972914042281]
我々はLGD(Label-Guided Self-Distillation)と呼ばれる汎用物体検出のための最初の自己蒸留フレームワークを提案する。
本フレームワークは, 学習知識を得るために, スパースラベル-外観符号化, オブジェクト間関係適応, オブジェクト内知識マッピングを含む。
従来の教師ベースのFGFIと比較すると、LGDは予習された教師を必要とせず、本質的な学生学習よりも51%低い訓練コストで性能が向上する。
論文 参考訳(メタデータ) (2021-09-23T16:55:01Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Training data-efficient image transformers & distillation through
attention [93.22667339525832]
Imagenetのみのトレーニングにより,コンボリューションフリーなコンボリューショントランスを試作した。
参照ビジョン変換器(86Mパラメータ)は、トップ1の精度83.1%を達成する。
論文 参考訳(メタデータ) (2020-12-23T18:42:10Z) - MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet
without Tricks [57.69809561405253]
我々は、ImageNet上でバニラResNet-50を80%以上のTop-1精度に向上できるフレームワークを、トリックなしで導入する。
本手法は,バニラResNet-50を用いた224x224の1つの作物サイズを用いて,ImageNetの80.67%のトップ1精度を得る。
我々のフレームワークは常に69.76%から73.19%に改善されている。
論文 参考訳(メタデータ) (2020-09-17T17:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。