論文の概要: Strong Baselines for Parameter Efficient Few-Shot Fine-tuning
- arxiv url: http://arxiv.org/abs/2304.01917v1
- Date: Tue, 4 Apr 2023 16:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:14:07.282095
- Title: Strong Baselines for Parameter Efficient Few-Shot Fine-tuning
- Title(参考訳): パラメータ効率の良いFew-Shotファインチューニングのための強ベースライン
- Authors: Samyadeep Basu, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
- Abstract要約: FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
- 参考スコア(独自算出の注目度): 50.83426196335385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot classification (FSC) entails learning novel classes given only a few
examples per class after a pre-training (or meta-training) phase on a set of
base classes. Recent works have shown that simply fine-tuning a pre-trained
Vision Transformer (ViT) on new test classes is a strong approach for FSC.
Fine-tuning ViTs, however, is expensive in time, compute and storage. This has
motivated the design of parameter efficient fine-tuning (PEFT) methods which
fine-tune only a fraction of the Transformer's parameters. While these methods
have shown promise, inconsistencies in experimental conditions make it
difficult to disentangle their advantage from other experimental factors
including the feature extractor architecture, pre-trained initialization and
fine-tuning algorithm, amongst others. In our paper, we conduct a large-scale,
experimentally consistent, empirical analysis to study PEFTs for few-shot image
classification. Through a battery of over 1.8k controlled experiments on
large-scale few-shot benchmarks including Meta-Dataset (MD) and ORBIT, we
uncover novel insights on PEFTs that cast light on their efficacy in
fine-tuning ViTs for few-shot classification. Through our controlled empirical
study, we have two main findings: (i) Fine-tuning just the LayerNorm parameters
(which we call LN-Tune) during few-shot adaptation is an extremely strong
baseline across ViTs pre-trained with both self-supervised and supervised
objectives, (ii) For self-supervised ViTs, we find that simply learning a set
of scaling parameters for each attention matrix (which we call AttnScale) along
with a domain-residual adapter (DRA) module leads to state-of-the-art
performance (while being $\sim\!$ 9$\times$ more parameter-efficient) on MD.
Our extensive empirical findings set strong baselines and call for rethinking
the current design of PEFT methods for FSC.
- Abstract(参考訳): FSC (Few-shot Classification) は、一組のベースクラスの事前訓練(メタトレーニング)フェーズの後に、クラス毎にいくつかの例しか与えない新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これは、トランスフォーマーのパラメータのほんの一部だけを微調整するパラメータ効率の良い微調整(peft)メソッドの設計を動機付けた。
これらの手法は有望であるが、実験条件の不整合は、特徴抽出器アーキテクチャ、事前学習初期化、微調整アルゴリズムなど、他の実験要素との利点を解消することが困難である。
本稿では,画像分類のためのPEFTを大規模かつ実験的に一貫した実験分析により検討する。
MD (Meta-Dataset) やORBIT (ORBIT) を含む大規模数点撮影ベンチマークで1.8k以上の制御実験を行い, 数点撮影分類のための微調整VTの有効性に光を当てたPEFTに関する新たな知見を明らかにした。
コントロールされた実証研究を通して 主な発見が2つあります
(i)LayerNormパラメータ(LN-Tuneと呼ぶ)のみの微調整は、自己監督目的と教師対象の両方で事前訓練されたViT間で非常に強力なベースラインである。
(ii) 自己管理型ViTでは、各アテンションマトリックス(AttnScaleと呼ぶ)のスケーリングパラメータセットをドメイン残留アダプタ(DRA)モジュールとともに学習するだけで、最先端のパフォーマンス($\sim\!
md で 9$\times$ よりパラメータ効率が高い)。
広範な実証実験により,FSCのためのPEFT法の設計の見直しが求められた。
関連論文リスト
- GIFT: Generative Interpretable Fine-Tuning Transformers [9.532589580200437]
本稿では, GIFT (Generative Interpretable Fine-tuning Transformer) を用いて, 微調整事前学習型トランスモデルを提案する。
我々のGIFTは深層パラメータ残差学習法であり、事前学習されたトランスフォーマーモデルを微調整する際の2つの問題に対処する。
実験では,提案したGIFTをVTABベンチマークときめ細かい視覚分類ベンチマークで検証した。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - Incremental Few-Shot Object Detection via Simple Fine-Tuning Approach [6.808112517338073]
iFSDは、いくつかの例を使って、ベースクラスを再考することなく、新しいクラスを漸進的に学習する。
そこで本研究では,iFSDのための単純な微調整手法であるIncrmental Two-stage Fine-tuning Approach (iTFA)を提案する。
iTFAはCOCOの競争性能を達成し、LVISデータセットのメタラーニング手法よりも30%高いAP精度を示す。
論文 参考訳(メタデータ) (2023-02-20T05:48:46Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。