論文の概要: Self-Promoted Supervision for Few-Shot Transformer
- arxiv url: http://arxiv.org/abs/2203.07057v1
- Date: Mon, 14 Mar 2022 12:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 15:56:28.868421
- Title: Self-Promoted Supervision for Few-Shot Transformer
- Title(参考訳): Few-Shot Transformer の自己推進型スーパービジョン
- Authors: Bowen Dong, Pan Zhou, Shuicheng Yan, Wangmeng Zuo
- Abstract要約: SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 178.52948452353834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The few-shot learning ability of vision transformers (ViTs) is rarely
investigated though heavily desired. In this work, we empirically find that
with the same few-shot learning frameworks, e.g., Meta-Baseline, replacing the
widely used CNN feature extractor with a ViT model often severely impairs
few-shot classification performance. Moreover, our empirical study shows that
in the absence of inductive bias, ViTs often learn the dependencies among input
tokens slowly under few-shot learning regime where only a few labeled training
data are available, which largely contributes to the above performance
degradation. To alleviate this issue, for the first time, we propose a simple
yet effective few-shot training framework for ViTs, namely Self-promoted
sUpervisioN (SUN). Specifically, besides the conventional global supervision
for global semantic learning, SUN further pretrains the ViT on the few-shot
learning dataset and then uses it to generate individual location-specific
supervision for guiding each patch token. This location-specific supervision
tells the ViT which patch tokens are similar or dissimilar and thus accelerates
token dependency learning. Moreover, it models the local semantics in each
patch token to improve the object grounding and recognition capability which
helps learn generalizable patterns. To improve the quality of location-specific
supervision, we further propose two techniques:~1) background patch filtration
to filtrate background patches out and assign them into an extra background
class; and 2) spatial-consistent augmentation to introduce sufficient diversity
for data augmentation while keeping the accuracy of the generated local
supervisions. Experimental results show that SUN using ViTs significantly
surpasses other few-shot learning frameworks with ViTs and is the first one
that achieves higher performance than those CNN state-of-the-arts.
- Abstract(参考訳): 視覚変換器(ViT)の少数ショット学習能力は、非常に望まれるものの、ほとんど調査されない。
本研究では,cnnの機能抽出器をvitモデルに置き換えたメタベースラインなど,同じマイショット学習フレームワークでは,マイショット分類性能を著しく損なうことが実証的に判明した。
さらに,本研究では,インダクティブバイアスが欠如している場合には,ラベル付きトレーニングデータしか入手できない数ショットの学習体制下で,入力トークン間の依存関係をゆっくりと学習することがよくあり,その性能劣化に大きく寄与することを示した。
この問題を軽減するため,我々は初めて,vitsのための単純かつ効果的な少数ショット訓練フレームワーク,すなわち自己プロモート監督(sun)を提案する。
具体的には、グローバルなセマンティックラーニングのための従来のグローバルな監視に加えて、SUNは、数ショットの学習データセットでViTをさらに事前訓練し、各パッチトークンを導くために、個別のロケーション固有の監督を生成する。
このロケーション固有の監視は、トークンのパッチが類似または異なっており、トークン依存学習を加速するViTに通知する。
さらに、パッチトークンのローカルセマンティクスをモデル化し、一般化可能なパターンを学ぶのに役立つオブジェクトの接地と認識能力を改善する。
位置特定監視の質を向上させるために, 背景パッチをフィルターし, 追加の背景クラスに割り当てるための背景パッチフィルタを提案する。
2) 空間整合性増強により, 発生した局所監督の精度を維持しつつ, データの増大に十分な多様性がもたらされる。
実験の結果,ViTsを用いたSUNは,ViTsを用いた他の数発の学習フレームワークをはるかに上回り,CNNの最先端技術よりも高い性能を実現した。
関連論文リスト
- Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Teaching Matters: Investigating the Role of Supervision in Vision
Transformers [32.79398665600664]
視覚変換器(ViT)は,その注意,表現,下流のパフォーマンスの観点から,多様な動作を学習する。
また,オフセット・ローカル・アテンション・ヘッドの出現など,監督の面から一貫したViT行動も発見する。
我々の分析では、ViTは高度に柔軟であり、訓練方法に応じて、異なる順序で局所的およびグローバルな情報を処理できることが示されている。
論文 参考訳(メタデータ) (2022-12-07T18:59:45Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Rectify ViT Shortcut Learning by Visual Saliency [40.55418820114868]
ショートカット学習は一般的だが、ディープラーニングモデルには有害である。
本研究では,ショートカット学習の精度向上を目的とした,新規かつ効果的なサリエンシ誘導型視覚変換器(SGT)モデルを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:54:07Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - Refiner: Refining Self-attention for Vision Transformers [85.80887884154427]
視覚変換器(ViT)は、CNNと比較して画像分類タスクにおいて、競合する精度を示す。
本稿では,ViTの自己注意マップを直接洗練するために,ファインダと呼ばれる概念的にシンプルなスキームを導入する。
refinerはアテンションマップの局所的なパターンを拡大するために畳み込みを適用します。これは、ローカルなアテンション特徴を学習可能なカーネルで局所的に集約した上で、グローバルなアテンションで集約した分散ローカルアテンション特徴と等価であることを示す。
論文 参考訳(メタデータ) (2021-06-07T15:24:54Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。