論文の概要: Adaptive Attention Link-based Regularization for Vision Transformers
- arxiv url: http://arxiv.org/abs/2211.13852v1
- Date: Fri, 25 Nov 2022 01:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:54:42.111586
- Title: Adaptive Attention Link-based Regularization for Vision Transformers
- Title(参考訳): 適応注意リンクに基づく視覚変換器の正則化
- Authors: Heegon Jin, Jongwon Choi
- Abstract要約: 視覚変換器(ViT)のトレーニング効率を向上させるための正規化手法を提案する。
トレーニング可能なリンクはアテンション拡張モジュールと呼ばれ、ViTと同時にトレーニングされる。
我々は,各CNNアクティベーションマップと各ViTアテンションヘッドの関係を抽出し,これに基づいて,高度なアテンション拡張モジュールを提案する。
- 参考スコア(独自算出の注目度): 6.6798113365140015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although transformer networks are recently employed in various vision tasks
with outperforming performance, extensive training data and a lengthy training
time are required to train a model to disregard an inductive bias. Using
trainable links between the channel-wise spatial attention of a pre-trained
Convolutional Neural Network (CNN) and the attention head of Vision
Transformers (ViT), we present a regularization technique to improve the
training efficiency of ViT. The trainable links are referred to as the
attention augmentation module, which is trained simultaneously with ViT,
boosting the training of ViT and allowing it to avoid the overfitting issue
caused by a lack of data. From the trained attention augmentation module, we
can extract the relevant relationship between each CNN activation map and each
ViT attention head, and based on this, we also propose an advanced attention
augmentation module. Consequently, even with a small amount of data, the
suggested method considerably improves the performance of ViT while achieving
faster convergence during training.
- Abstract(参考訳): 近年,トランスフォーマーネットワークが様々な視覚課題に採用されているが,誘導バイアスを無視するモデルの訓練には,広範なトレーニングデータと長いトレーニング時間が必要である。
事前学習した畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)のアテンションヘッドとの訓練可能なリンクを用いて、ViTのトレーニング効率を向上させるための正規化手法を提案する。
トレーニング可能なリンクはアテンション拡張モジュールと呼ばれ、ViTと同時にトレーニングされ、ViTのトレーニングを強化し、データ不足による過度な問題を回避することができる。
訓練された注意強化モジュールから,各cnnアクティベーションマップと各vit注意ヘッドの関係を抽出でき,これに基づいて高度な注意強化モジュールを提案する。
その結果,少ないデータ量でもvitの性能が大幅に向上し,学習中のコンバージェンスが高速化できることがわかった。
関連論文リスト
- A General and Efficient Training for Transformer via Token Expansion [44.002355107931805]
ビジョントランスフォーマー(ViT)は通常、非常に大きなトレーニングコストを必要とする。
既存の手法はViTの訓練を高速化しようと試みているが、通常は精度の低下を伴う手法を無視している。
本稿では,新しいトークン成長スキームであるToken Expansion(ToE)を提案し,ViTに対する一貫したトレーニングアクセラレーションを実現する。
論文 参考訳(メタデータ) (2024-03-31T12:44:24Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。
我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。
提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-09-15T16:00:04Z) - Towards Efficient Adversarial Training on Vision Transformers [41.6396577241957]
敵の訓練は、堅牢なCNNを実現するための最も効果的な方法の1つである。
本稿では,効率的な注意指導型対人訓練機構を提案する。
高速な敵のトレーニング時間のわずか65%で、挑戦的なImageNetベンチマークの最先端の結果と一致します。
論文 参考訳(メタデータ) (2022-07-21T14:23:50Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。