論文の概要: E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning
- arxiv url: http://arxiv.org/abs/2307.13770v1
- Date: Tue, 25 Jul 2023 19:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 14:36:41.762637
- Title: E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning
- Title(参考訳): E^2VPT:ビジュアルプロンプトチューニングの効果的かつ効率的なアプローチ
- Authors: Cheng Han, Qifan Wang, Yiming Cui, Zhiwen Cao, Wenguan Wang, Siyuan
Qi, Dongfang Liu
- Abstract要約: 新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 55.50908600818483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size of transformer-based models continues to grow, fine-tuning these
large-scale pretrained vision models for new tasks has become increasingly
parameter-intensive. Parameter-efficient learning has been developed to reduce
the number of tunable parameters during fine-tuning. Although these methods
show promising results, there is still a significant performance gap compared
to full fine-tuning. To address this challenge, we propose an Effective and
Efficient Visual Prompt Tuning (E^2VPT) approach for large-scale
transformer-based model adaptation. Specifically, we introduce a set of
learnable key-value prompts and visual prompts into self-attention and input
layers, respectively, to improve the effectiveness of model fine-tuning.
Moreover, we design a prompt pruning procedure to systematically prune low
importance prompts while preserving model performance, which largely enhances
the model's efficiency. Empirical results demonstrate that our approach
outperforms several state-of-the-art baselines on two benchmarks, with
considerably low parameter usage (e.g., 0.32% of model parameters on VTAB-1k).
Our code is available at https://github.com/ChengHan111/E2VPT.
- Abstract(参考訳): トランスフォーマーベースモデルのサイズが拡大するにつれ、これらの大規模事前学習型視覚モデルを微調整する作業がパラメータ集約化されつつある。
微調整時の可変パラメータ数を減らすためにパラメータ効率のよい学習が開発されている。
これらの手法は有望な結果を示すが、完全な微調整に比べてまだ大きな性能差がある。
この課題に対処するために、大規模トランスフォーマーモデル適応のための効果的で効率的なビジュアルプロンプトチューニング(E^2VPT)手法を提案する。
具体的には,学習可能なキー値プロンプトと視覚的プロンプトをそれぞれ自己注意層と入力層に導入し,モデル微調整の有効性を向上させる。
さらに,モデル性能を保ちながら,低重要プロンプトを体系的にプルーンプルーンするプロンプトプルーニング手法を設計し,モデルの効率を大幅に向上させる。
実験結果から,本手法は2つのベンチマークで最先端のベースラインを上回っており,パラメータ使用率がかなり低い(vtab-1kのモデルパラメータの0.32%など)。
私たちのコードはhttps://github.com/chenghan111/e2vptで利用可能です。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model [9.1108256816605]
大規模言語モデル(LLM)のトークン化機能を置き換えることにより,モデル表現と処理効率を向上させる手法を提案する。
本手法は,トークン化器を置き換えたモデルの性能を維持しつつ,長文の復号速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T03:01:07Z) - CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。