論文の概要: E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning
- arxiv url: http://arxiv.org/abs/2307.13770v1
- Date: Tue, 25 Jul 2023 19:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 14:36:41.762637
- Title: E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning
- Title(参考訳): E^2VPT:ビジュアルプロンプトチューニングの効果的かつ効率的なアプローチ
- Authors: Cheng Han, Qifan Wang, Yiming Cui, Zhiwen Cao, Wenguan Wang, Siyuan
Qi, Dongfang Liu
- Abstract要約: 新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 55.50908600818483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size of transformer-based models continues to grow, fine-tuning these
large-scale pretrained vision models for new tasks has become increasingly
parameter-intensive. Parameter-efficient learning has been developed to reduce
the number of tunable parameters during fine-tuning. Although these methods
show promising results, there is still a significant performance gap compared
to full fine-tuning. To address this challenge, we propose an Effective and
Efficient Visual Prompt Tuning (E^2VPT) approach for large-scale
transformer-based model adaptation. Specifically, we introduce a set of
learnable key-value prompts and visual prompts into self-attention and input
layers, respectively, to improve the effectiveness of model fine-tuning.
Moreover, we design a prompt pruning procedure to systematically prune low
importance prompts while preserving model performance, which largely enhances
the model's efficiency. Empirical results demonstrate that our approach
outperforms several state-of-the-art baselines on two benchmarks, with
considerably low parameter usage (e.g., 0.32% of model parameters on VTAB-1k).
Our code is available at https://github.com/ChengHan111/E2VPT.
- Abstract(参考訳): トランスフォーマーベースモデルのサイズが拡大するにつれ、これらの大規模事前学習型視覚モデルを微調整する作業がパラメータ集約化されつつある。
微調整時の可変パラメータ数を減らすためにパラメータ効率のよい学習が開発されている。
これらの手法は有望な結果を示すが、完全な微調整に比べてまだ大きな性能差がある。
この課題に対処するために、大規模トランスフォーマーモデル適応のための効果的で効率的なビジュアルプロンプトチューニング(E^2VPT)手法を提案する。
具体的には,学習可能なキー値プロンプトと視覚的プロンプトをそれぞれ自己注意層と入力層に導入し,モデル微調整の有効性を向上させる。
さらに,モデル性能を保ちながら,低重要プロンプトを体系的にプルーンプルーンするプロンプトプルーニング手法を設計し,モデルの効率を大幅に向上させる。
実験結果から,本手法は2つのベンチマークで最先端のベースラインを上回っており,パラメータ使用率がかなり低い(vtab-1kのモデルパラメータの0.32%など)。
私たちのコードはhttps://github.com/chenghan111/e2vptで利用可能です。
関連論文リスト
- DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer
Learning for Point Cloud Analysis [53.70588957376317]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient
Fine-Tuning in Deep Metric Learning [15.254782791542329]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Astraios: Parameter-Efficient Instruction Tuning Code Large Language
Models [21.17021844323919]
Astraiosは7つのチューニングメソッドと最大16億のパラメータの4つのモデルサイズを使用して、命令チューニングされた28のOctoCoderモデルのスイートである。
その結果、FFTは全スケールで最高のダウンストリーム性能を示し、PEFT法はモデルスケールに基づいてその有効性に大きな違いがあることがわかった。
論文 参考訳(メタデータ) (2024-01-01T15:30:19Z) - Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Prototypical Fine-tuning: Towards Robust Performance Under Varying Data
Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。
提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文 参考訳(メタデータ) (2022-11-24T14:38:08Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。