論文の概要: Exploring Efficient Few-shot Adaptation for Vision Transformers
- arxiv url: http://arxiv.org/abs/2301.02419v1
- Date: Fri, 6 Jan 2023 08:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:40:25.671120
- Title: Exploring Efficient Few-shot Adaptation for Vision Transformers
- Title(参考訳): 視覚変換器の効率よいFew-shot Adaptationの探索
- Authors: Chengming Xu, Siqian Yang, Yabiao Wang, Zhanxiong Wang, Yanwei Fu,
Xiangyang Xue
- Abstract要約: そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 70.91692521825405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of Few-shot Learning (FSL) aims to do the inference on novel
categories containing only few labeled examples, with the help of knowledge
learned from base categories containing abundant labeled training samples.
While there are numerous works into FSL task, Vision Transformers (ViTs) have
rarely been taken as the backbone to FSL with few trials focusing on naive
finetuning of whole backbone or classification layer.} Essentially, despite
ViTs have been shown to enjoy comparable or even better performance on other
vision tasks, it is still very nontrivial to efficiently finetune the ViTs in
real-world FSL scenarios. To this end, we propose a novel efficient Transformer
Tuning (eTT) method that facilitates finetuning ViTs in the FSL tasks. The key
novelties come from the newly presented Attentive Prefix Tuning (APT) and
Domain Residual Adapter (DRA) for the task and backbone tuning, individually.
Specifically, in APT, the prefix is projected to new key and value pairs that
are attached to each self-attention layer to provide the model with
task-specific information. Moreover, we design the DRA in the form of learnable
offset vectors to handle the potential domain gaps between base and novel data.
To ensure the APT would not deviate from the initial task-specific information
much, we further propose a novel prototypical regularization, which maximizes
the similarity between the projected distribution of prefix and initial
prototypes, regularizing the update procedure. Our method receives outstanding
performance on the challenging Meta-Dataset. We conduct extensive experiments
to show the efficacy of our model.
- Abstract(参考訳): FSL(Few-shot Learning)の課題は,ラベル付きトレーニングサンプルを豊富に含むベースカテゴリから学習した知識を利用して,ラベル付きサンプルを少数含む新規カテゴリの推論を行うことである。
FSLタスクには多くの研究があるが、視覚トランスフォーマー(ViT)がFSLのバックボーンとして採用されることは稀であり、バックボーン全体や分類層を微調整することに焦点を当てる試みはほとんどない。
基本的に、ViTは、他のビジョンタスクで同等またはさらに優れたパフォーマンスを享受していることが示されているが、現実のFSLシナリオでViTを効率的に微調整することは、まだ非常に簡単ではない。
そこで本研究では,FSLタスクの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
鍵となる新機能は、タスクとバックボーンチューニングのために新たに提示された注意プレフィックスチューニング(apt)とドメイン残差アダプタ(dra)から生まれます。
具体的には、APTでは、プレフィックスを各自己保持層に取り付けられた新しいキーと値ペアに投影し、タスク固有の情報を提供する。
さらに,学習可能なオフセットベクトルの形でdraを設計し,ベースデータと新規データの間の潜在的な領域ギャップを処理する。
aptが初期タスク固有の情報からあまり逸脱しないようにするため、我々はさらにプレフィックスと初期プロトタイプの射影分布の類似性を最大化し、更新手順を規則化する新しいプロトタイプ正規化を提案する。
提案手法はメタデータセットの課題に対して優れた性能を発揮する。
我々は,モデルの有効性を示す広範な実験を行った。
関連論文リスト
- Heterogeneous Federated Learning with Splited Language Model [22.65325348176366]
フェデレート・スプリット・ラーニング(FSL)は、実際には有望な分散学習パラダイムである。
本稿では,前訓練画像変換器(PIT)をFedVと呼ばれる初期モデルとして利用し,トレーニングプロセスの高速化とモデルロバスト性の向上を図る。
我々は、実世界のデータセット、異なる部分的デバイス参加、異種データ分割におけるPITを用いたFSL手法の体系的評価を初めて行った。
論文 参考訳(メタデータ) (2024-03-24T07:33:08Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Mask-guided Vision Transformer (MG-ViT) for Few-Shot Learning [10.29251906347605]
本稿では,視覚変換器(ViT)モデルを用いた効果的かつ効率的な数ショット学習を実現するために,新しいマスク誘導型視覚変換器(MG-ViT)を提案する。
MG-ViTモデルは、一般的な微調整ベースのViTモデルと比較して、性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-20T07:25:33Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot
classification [50.358839666165764]
本稿では,タスク適応機能サブスペース学習(TAFSSL)により,Few-Shot Learningシナリオの性能を大幅に向上させることができることを示す。
具体的には、挑戦的な miniImageNet と tieredImageNet ベンチマークにおいて、TAFSSL はトランスダクティブおよび半教師付き FSL 設定の両方で現在の状態を改善することができることを示しています。
論文 参考訳(メタデータ) (2020-03-14T16:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。