論文の概要: Self-Promoted Supervision for Few-Shot Transformer
- arxiv url: http://arxiv.org/abs/2203.07057v1
- Date: Mon, 14 Mar 2022 12:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 15:56:28.868421
- Title: Self-Promoted Supervision for Few-Shot Transformer
- Title(参考訳): Few-Shot Transformer の自己推進型スーパービジョン
- Authors: Bowen Dong, Pan Zhou, Shuicheng Yan, Wangmeng Zuo
- Abstract要約: SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 178.52948452353834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The few-shot learning ability of vision transformers (ViTs) is rarely
investigated though heavily desired. In this work, we empirically find that
with the same few-shot learning frameworks, e.g., Meta-Baseline, replacing the
widely used CNN feature extractor with a ViT model often severely impairs
few-shot classification performance. Moreover, our empirical study shows that
in the absence of inductive bias, ViTs often learn the dependencies among input
tokens slowly under few-shot learning regime where only a few labeled training
data are available, which largely contributes to the above performance
degradation. To alleviate this issue, for the first time, we propose a simple
yet effective few-shot training framework for ViTs, namely Self-promoted
sUpervisioN (SUN). Specifically, besides the conventional global supervision
for global semantic learning, SUN further pretrains the ViT on the few-shot
learning dataset and then uses it to generate individual location-specific
supervision for guiding each patch token. This location-specific supervision
tells the ViT which patch tokens are similar or dissimilar and thus accelerates
token dependency learning. Moreover, it models the local semantics in each
patch token to improve the object grounding and recognition capability which
helps learn generalizable patterns. To improve the quality of location-specific
supervision, we further propose two techniques:~1) background patch filtration
to filtrate background patches out and assign them into an extra background
class; and 2) spatial-consistent augmentation to introduce sufficient diversity
for data augmentation while keeping the accuracy of the generated local
supervisions. Experimental results show that SUN using ViTs significantly
surpasses other few-shot learning frameworks with ViTs and is the first one
that achieves higher performance than those CNN state-of-the-arts.
- Abstract(参考訳): 視覚変換器(ViT)の少数ショット学習能力は、非常に望まれるものの、ほとんど調査されない。
本研究では,cnnの機能抽出器をvitモデルに置き換えたメタベースラインなど,同じマイショット学習フレームワークでは,マイショット分類性能を著しく損なうことが実証的に判明した。
さらに,本研究では,インダクティブバイアスが欠如している場合には,ラベル付きトレーニングデータしか入手できない数ショットの学習体制下で,入力トークン間の依存関係をゆっくりと学習することがよくあり,その性能劣化に大きく寄与することを示した。
この問題を軽減するため,我々は初めて,vitsのための単純かつ効果的な少数ショット訓練フレームワーク,すなわち自己プロモート監督(sun)を提案する。
具体的には、グローバルなセマンティックラーニングのための従来のグローバルな監視に加えて、SUNは、数ショットの学習データセットでViTをさらに事前訓練し、各パッチトークンを導くために、個別のロケーション固有の監督を生成する。
このロケーション固有の監視は、トークンのパッチが類似または異なっており、トークン依存学習を加速するViTに通知する。
さらに、パッチトークンのローカルセマンティクスをモデル化し、一般化可能なパターンを学ぶのに役立つオブジェクトの接地と認識能力を改善する。
位置特定監視の質を向上させるために, 背景パッチをフィルターし, 追加の背景クラスに割り当てるための背景パッチフィルタを提案する。
2) 空間整合性増強により, 発生した局所監督の精度を維持しつつ, データの増大に十分な多様性がもたらされる。
実験の結果,ViTsを用いたSUNは,ViTsを用いた他の数発の学習フレームワークをはるかに上回り,CNNの最先端技術よりも高い性能を実現した。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis [38.074487843137064]
本稿では,教師付き事前学習型視覚変換器(ViTs)と従来のニューラルネットワーク(ConvNets)とを比較し,顔深度画像やビデオの検出に有効であることを示す。
これは、特に限られたトレーニングデータを用いて、一般化と説明可能性を改善する可能性について検討する。
SSL ViTsを利用して、平易なデータによるディープフェイク検出と部分的な微調整を行い、注意機構を介してディープフェイク検出と説明可能性に匹敵する適応性を見出す。
論文 参考訳(メタデータ) (2024-05-01T07:16:49Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - Refiner: Refining Self-attention for Vision Transformers [85.80887884154427]
視覚変換器(ViT)は、CNNと比較して画像分類タスクにおいて、競合する精度を示す。
本稿では,ViTの自己注意マップを直接洗練するために,ファインダと呼ばれる概念的にシンプルなスキームを導入する。
refinerはアテンションマップの局所的なパターンを拡大するために畳み込みを適用します。これは、ローカルなアテンション特徴を学習可能なカーネルで局所的に集約した上で、グローバルなアテンションで集約した分散ローカルアテンション特徴と等価であることを示す。
論文 参考訳(メタデータ) (2021-06-07T15:24:54Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。