論文の概要: PVP: Pre-trained Visual Parameter-Efficient Tuning
- arxiv url: http://arxiv.org/abs/2304.13639v1
- Date: Wed, 26 Apr 2023 15:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:43:29.429179
- Title: PVP: Pre-trained Visual Parameter-Efficient Tuning
- Title(参考訳): PVP:事前訓練されたビジュアルパラメータ効率のチューニング
- Authors: Zhao Song, Ke Yang, Naiyang Guan, Junjie Zhu, Peng Qiao, Qingyong Hu
- Abstract要約: 大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
- 参考スコア(独自算出の注目度): 29.05396521860764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale pre-trained transformers have demonstrated remarkable success in
various computer vision tasks. However, it is still highly challenging to fully
fine-tune these models for downstream tasks due to their high computational and
storage costs. Recently, Parameter-Efficient Tuning (PETuning) techniques,
e.g., Visual Prompt Tuning (VPT) and Low-Rank Adaptation (LoRA), have
significantly reduced the computation and storage cost by inserting lightweight
prompt modules into the pre-trained models and tuning these prompt modules with
a small number of trainable parameters, while keeping the transformer backbone
frozen. Although only a few parameters need to be adjusted, most PETuning
methods still require a significant amount of downstream task training data to
achieve good results. The performance is inadequate on low-data regimes,
especially when there are only one or two examples per class. To this end, we
first empirically identify the poor performance is mainly due to the
inappropriate way of initializing prompt modules, which has also been verified
in the pre-trained language models. Next, we propose a Pre-trained Visual
Parameter-efficient (PVP) Tuning framework, which pre-trains the
parameter-efficient tuning modules first and then leverages the pre-trained
modules along with the pre-trained transformer backbone to perform
parameter-efficient tuning on downstream tasks. Experiment results on five
Fine-Grained Visual Classification (FGVC) and VTAB-1k datasets demonstrate that
our proposed method significantly outperforms state-of-the-art PETuning
methods.
- Abstract(参考訳): 大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
しかし、計算コストやストレージコストが高いため、下流タスクでこれらのモデルを十分に微調整することは依然として非常に困難である。
近年,視覚プロンプトチューニング (vpt) や低ランク適応 (lora) といったパラメータ効率の高いチューニング (petuning) 技術により,事前学習したモデルに軽量プロンプトモジュールを挿入し,トランスフォーマーバックボーンを凍結しながら,これらのプロンプトモジュールを少数のトレーニング可能なパラメータでチューニングすることで,計算コストとストレージコストを大幅に削減している。
調整が必要なパラメータはわずかだが、ほとんどのPETuningメソッドは良い結果を得るためには、かなりの量のダウンストリームタスクトレーニングデータを必要とする。
パフォーマンスは低データのレギュレーション、特にクラス毎に1つまたは2つの例がある場合に不適切である。
この目的のために,我々はまず,プリトレーニングされた言語モデルでも検証されているプロンプトモジュールの初期化方法が不適切なため,パフォーマンスが低かったことを実証的に確認した。
次に,まずパラメータ効率のよいチューニングモジュールを事前学習し,その後,事前学習されたトランスフォーマーバックボーンとともに事前学習されたモジュールを活用し,下流タスクでパラメータ効率のチューニングを行う,プリトレーニングされたビジュアルパラメータ効率(pvp)チューニングフレームワークを提案する。
5つのFGVCとVTAB-1kデータセットによる実験結果から,提案手法がPETuning法よりも優れていることが示された。
関連論文リスト
- Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。