Fugu-MT 論文翻訳(概要): Strong Baselines for Parameter Efficient Few-Shot Fine-tuning

論文の概要: Strong Baselines for Parameter Efficient Few-Shot Fine-tuning

arxiv url: http://arxiv.org/abs/2304.01917v1
Date: Tue, 4 Apr 2023 16:14:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 13:14:07.282095
Title: Strong Baselines for Parameter Efficient Few-Shot Fine-tuning
Title（参考訳）: パラメータ効率の良いFew-Shotファインチューニングのための強ベースライン
Authors: Samyadeep Basu, Daniela Massiceti, Shell Xu Hu, Soheil Feizi
Abstract要約: FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
参考スコア（独自算出の注目度）: 50.83426196335385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot classification (FSC) entails learning novel classes given only a few examples per class after a pre-training (or meta-training) phase on a set of base classes. Recent works have shown that simply fine-tuning a pre-trained Vision Transformer (ViT) on new test classes is a strong approach for FSC. Fine-tuning ViTs, however, is expensive in time, compute and storage. This has motivated the design of parameter efficient fine-tuning (PEFT) methods which fine-tune only a fraction of the Transformer's parameters. While these methods have shown promise, inconsistencies in experimental conditions make it difficult to disentangle their advantage from other experimental factors including the feature extractor architecture, pre-trained initialization and fine-tuning algorithm, amongst others. In our paper, we conduct a large-scale, experimentally consistent, empirical analysis to study PEFTs for few-shot image classification. Through a battery of over 1.8k controlled experiments on large-scale few-shot benchmarks including Meta-Dataset (MD) and ORBIT, we uncover novel insights on PEFTs that cast light on their efficacy in fine-tuning ViTs for few-shot classification. Through our controlled empirical study, we have two main findings: (i) Fine-tuning just the LayerNorm parameters (which we call LN-Tune) during few-shot adaptation is an extremely strong baseline across ViTs pre-trained with both self-supervised and supervised objectives, (ii) For self-supervised ViTs, we find that simply learning a set of scaling parameters for each attention matrix (which we call AttnScale) along with a domain-residual adapter (DRA) module leads to state-of-the-art performance (while being $\sim\!$ 9$\times$ more parameter-efficient) on MD. Our extensive empirical findings set strong baselines and call for rethinking the current design of PEFT methods for FSC.
Abstract（参考訳）: FSC (Few-shot Classification) は、一組のベースクラスの事前訓練(メタトレーニング)フェーズの後に、クラス毎にいくつかの例しか与えない新しいクラスを学習する。近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。これは、トランスフォーマーのパラメータのほんの一部だけを微調整するパラメータ効率の良い微調整(peft)メソッドの設計を動機付けた。これらの手法は有望であるが、実験条件の不整合は、特徴抽出器アーキテクチャ、事前学習初期化、微調整アルゴリズムなど、他の実験要素との利点を解消することが困難である。本稿では,画像分類のためのPEFTを大規模かつ実験的に一貫した実験分析により検討する。 MD (Meta-Dataset) やORBIT (ORBIT) を含む大規模数点撮影ベンチマークで1.8k以上の制御実験を行い, 数点撮影分類のための微調整VTの有効性に光を当てたPEFTに関する新たな知見を明らかにした。コントロールされた実証研究を通して主な発見が2つあります (i)LayerNormパラメータ(LN-Tuneと呼ぶ)のみの微調整は、自己監督目的と教師対象の両方で事前訓練されたViT間で非常に強力なベースラインである。 (ii) 自己管理型ViTでは、各アテンションマトリックス(AttnScaleと呼ぶ)のスケーリングパラメータセットをドメイン残留アダプタ(DRA)モジュールとともに学習するだけで、最先端のパフォーマンス($\sim\! md で 9$\times$ よりパラメータ効率が高い)。広範な実証実験により,FSCのためのPEFT法の設計の見直しが求められた。

関連論文リスト

Adaptive Additive Parameter Updates of Vision Transformers for Few-Shot Continual Learning [0.0]
FSCIL(Few-shot class incremental learning)は、最初にベースクラスの堅牢なデータセット上でモデルをトレーニングし、連続したセッションでそれを漸進的に適応することによって、この問題に対処する。このアプローチは、制限された新しいデータに過度に適合する傾向があり、全体的なパフォーマンスを損なうとともに、忘れを悪化させる可能性がある。パラメータ効率のよい加算更新を付加した凍結型ビジョントランスフォーマー(ViT)バックボーンを利用する新しいFSCILフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-11T21:17:30Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文参考訳（メタデータ） (2024-10-29T07:55:50Z)
Lessons Learned from a Unifying Empirical Study of Parameter-Efficient Transfer Learning (PETL) in Visual Recognition [36.031972728327894]
視覚変換器の文脈における代表的PETL法について検討した。 PETL法は低ショットのベンチマークVTAB-1Kでも同様の精度が得られる。 PETLは、多くのショットレシエーションでも有用であり、フルFTよりも同等で、時には精度が向上する。
論文参考訳（メタデータ） (2024-09-24T19:57:40Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文参考訳（メタデータ） (2024-06-16T15:14:56Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。事前学習型ビジュアルを提案する。効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文参考訳（メタデータ） (2023-04-26T15:55:29Z)
Incremental Few-Shot Object Detection via Simple Fine-Tuning Approach [6.808112517338073]
iFSDは、いくつかの例を使って、ベースクラスを再考することなく、新しいクラスを漸進的に学習する。そこで本研究では,iFSDのための単純な微調整手法であるIncrmental Two-stage Fine-tuning Approach (iTFA)を提案する。 iTFAはCOCOの競争性能を達成し、LVISデータセットのメタラーニング手法よりも30%高いAP精度を示す。
論文参考訳（メタデータ） (2023-02-20T05:48:46Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
Pushing the Limits of Simple Pipelines for Few-Shot Learning: External Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (2022-04-15T02:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。