論文の概要: Co-advise: Cross Inductive Bias Distillation
- arxiv url: http://arxiv.org/abs/2106.12378v1
- Date: Wed, 23 Jun 2021 13:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:28:00.068163
- Title: Co-advise: Cross Inductive Bias Distillation
- Title(参考訳): co-advise:クロスインダクティブバイアス蒸留
- Authors: Sucheng Ren, Zhengqi Gao, Tianyu Hua, Zihui Xue, Yonglong Tian,
Shengfeng He, Hang Zhao
- Abstract要約: 視覚変換器を訓練するための新しい蒸留法を提案する。
我々は,学生トランスフォーマーを共同で助言するために,異なるアーキテクチャ的帰納バイアスを持つ軽量な教員を紹介した。
私たちのビジョントランスフォーマー(CivT)は、ImageNetで同じアーキテクチャの以前のトランスフォーマーよりも優れています。
- 参考スコア(独自算出の注目度): 39.61426495884721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers recently are adapted from the community of natural language
processing as a promising substitute of convolution-based neural networks for
visual learning tasks. However, its supremacy degenerates given an insufficient
amount of training data (e.g., ImageNet). To make it into practical utility, we
propose a novel distillation-based method to train vision transformers. Unlike
previous works, where merely heavy convolution-based teachers are provided, we
introduce lightweight teachers with different architectural inductive biases
(e.g., convolution and involution) to co-advise the student transformer. The
key is that teachers with different inductive biases attain different knowledge
despite that they are trained on the same dataset, and such different knowledge
compounds and boosts the student's performance during distillation. Equipped
with this cross inductive bias distillation method, our vision transformers
(termed as CivT) outperform all previous transformers of the same architecture
on ImageNet.
- Abstract(参考訳): 近年のトランスフォーマーは、自然言語処理のコミュニティから、視覚学習タスクのための畳み込みベースのニューラルネットワークの代替として適応している。
しかし、その優越性は不十分なトレーニングデータ(例: imagenet)を与えられた。
そこで本研究では,視覚変換器を訓練するための蒸留法を提案する。
単に重い畳み込みベースの教師が提供される以前の作品とは異なり、学生トランスフォーマーを助言するために異なるアーキテクチャ的帰納的バイアス(例えば、畳み込みと畳み込み)を持つ軽量の教師を導入する。
鍵となるのは、異なるインダクティブバイアスを持つ教師は、同じデータセットでトレーニングされているにもかかわらず異なる知識を得ることであり、そのような異なる知識の複合物であり、蒸留中の生徒のパフォーマンスを高めることである。
このクロスインダクティブバイアス蒸留法により、私たちのビジョントランスフォーマー(CivT)は、ImageNet上の同じアーキテクチャの以前のトランスフォーマーよりも優れています。
関連論文リスト
- Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression [6.508088032296086]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Training data-efficient image transformers & distillation through
attention [93.22667339525832]
Imagenetのみのトレーニングにより,コンボリューションフリーなコンボリューショントランスを試作した。
参照ビジョン変換器(86Mパラメータ)は、トップ1の精度83.1%を達成する。
論文 参考訳(メタデータ) (2020-12-23T18:42:10Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。