論文の概要: On the Surprising Effectiveness of Attention Transfer for Vision Transformers
- arxiv url: http://arxiv.org/abs/2411.09702v1
- Date: Thu, 14 Nov 2024 18:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:46.226726
- Title: On the Surprising Effectiveness of Attention Transfer for Vision Transformers
- Title(参考訳): 視覚変換器における注意伝達の有効性について
- Authors: Alexander C. Li, Yuandong Tian, Beidi Chen, Deepak Pathak, Xinlei Chen,
- Abstract要約: 従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
- 参考スコア(独自算出の注目度): 118.83572030360843
- License:
- Abstract: Conventional wisdom suggests that pre-training Vision Transformers (ViT) improves downstream performance by learning useful representations. Is this actually true? We investigate this question and find that the features and representations learned during pre-training are not essential. Surprisingly, using only the attention patterns from pre-training (i.e., guiding how information flows between tokens) is sufficient for models to learn high quality features from scratch and achieve comparable downstream performance. We show this by introducing a simple method called attention transfer, where only the attention patterns from a pre-trained teacher ViT are transferred to a student, either by copying or distilling the attention maps. Since attention transfer lets the student learn its own features, ensembling it with a fine-tuned teacher also further improves accuracy on ImageNet. We systematically study various aspects of our findings on the sufficiency of attention maps, including distribution shift settings where they underperform fine-tuning. We hope our exploration provides a better understanding of what pre-training accomplishes and leads to a useful alternative to the standard practice of fine-tuning
- Abstract(参考訳): 従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
これは本当ですか?
予備学習で学んだ特徴や表現は必須ではない。
驚くべきことに、事前トレーニング(すなわちトークン間の情報の流れのガイド)からの注意パターンのみを使用することで、モデルがスクラッチから高品質の機能を学び、同等のダウンストリームのパフォーマンスを達成するのに十分である。
注意伝達と呼ばれる簡単な手法を導入することで,事前学習した教師のViTの注意パターンのみを,注意マップのコピーや蒸留によって学生に伝達することを示す。
注意伝達により、生徒は自身の特徴を学習できるため、微調整された教師と組み合わせることで、ImageNetの精度も向上する。
本研究は, 微調整が不十分な分布シフト設定を含む, 注意マップの充実度に関する知見の諸側面を系統的に研究する。
私たちは、事前学習が達成するものをよりよく理解し、ファインチューニングの標準的な実践に取って代わる有用な代替手段になることを期待しています。
関連論文リスト
- Learning Visual Prompts for Guiding the Attention of Vision Transformers [29.023448448047805]
本研究は、視覚変換器の注意を導くための視覚的プロンプトを学習することを提案する。
入力画像に追加される学習された視覚的プロンプトは、事前訓練された視覚変換器の注意を画像上の空間的位置にリダイレクトする。
論文 参考訳(メタデータ) (2024-06-05T14:13:38Z) - TOAST: Transfer Learning via Attention Steering [77.83191769502763]
現在の伝達学習法は、しばしばタスク関連機能に焦点をあてることに失敗する。
タスク固有の特徴に注意を向ける新しい伝達学習アルゴリズムであるTop-Down Attention Steering(TOAST)を紹介する。
TOASTは、さまざまなきめ細かい視覚分類データセットのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-05-24T20:03:04Z) - Preserving Locality in Vision Transformers for Class Incremental
Learning [54.696808348218426]
ViTを漸進的に訓練すると、注目層は徐々に局所的な特徴に集中できなくなる。
ローカル機能の重要性を強調するために、ローカル性保存アテンション層を考案する。
改良されたモデルは、CIFAR100とImageNet100で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-14T07:42:21Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Improving Transferability of Representations via Augmentation-Aware
Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。
私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。
AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-11-18T10:43:50Z) - Self-supervised visual feature learning with curriculum [0.24366811507669126]
本稿では,カリキュラム学習からインスピレーションを得て,段階的に低レベル信号を除去する。
その結果,下流タスクの収束速度は著しく向上した。
論文 参考訳(メタデータ) (2020-01-16T03:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。