論文の概要: CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task
- arxiv url: http://arxiv.org/abs/2408.14961v1
- Date: Tue, 27 Aug 2024 11:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:03:31.968930
- Title: CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task
- Title(参考訳): CVPT:Visual Prompt Tuningの視覚的タスク適応を支援するクロスアテンション
- Authors: Lingyun Huang, Jianxu Mao, Yaonan Wang, Junfei Yi, Ziming Tao,
- Abstract要約: Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
- 参考スコア(独自算出の注目度): 15.642102189777072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the rapid expansion of model sizes has led to large-scale pre-trained models demonstrating remarkable capabilities. Consequently, there has been a trend towards increasing the scale of models. However, this trend introduces significant challenges, including substantial computational costs of training and transfer to downstream tasks. To address these issues, Parameter-Efficient Fine-Tuning (PEFT) methods have been introduced. These methods optimize large-scale pre-trained models for specific tasks by fine-tuning a select group of parameters. Among these PEFT methods, adapter-based and prompt-based methods are the primary techniques. Specifically, in the field of visual fine-tuning, adapters gain prominence over prompts because of the latter's relatively weaker performance and efficiency. Under the circumstances, we refine the widely-used Visual Prompt Tuning (VPT) method, proposing Cross Visual Prompt Tuning (CVPT). CVPT calculates cross-attention between the prompt tokens and the embedded tokens, which allows us to compute the semantic relationship between them and conduct the fine-tuning of models exactly to adapt visual tasks better. Furthermore, we introduce the weight-sharing mechanism to initialize the parameters of cross-attention, which avoids massive learnable parameters from cross-attention and enhances the representative capability of cross-attention. We conduct comprehensive testing across 25 datasets and the result indicates that CVPT significantly improves VPT's performance and efficiency in visual tasks. For example, on the VTAB-1K benchmark, CVPT outperforms VPT over 4% in average accuracy, rivaling the advanced adapter-based methods in performance and efficiency. Our experiments confirm that prompt-based methods can achieve exceptional results in visual fine-tuning.
- Abstract(参考訳): 近年、モデルサイズが急速に拡大し、大規模に事前訓練されたモデルが顕著な能力を発揮している。
その結果、モデルの規模を拡大する傾向が見られた。
しかし、この傾向は、トレーニングと下流タスクへの転送のかなりの計算コストを含む、重大な課題をもたらす。
これらの問題に対処するため,パラメータ効率の良いファインチューニング(PEFT)手法が導入された。
これらの手法は,特定のパラメータ群を微調整することにより,特定のタスクに対する大規模事前学習モデルを最適化する。
これらのPEFT手法のうち、アダプタベースの手法とプロンプトベースの手法が主要な手法である。
具体的には、視覚的な微調整の分野では、アダプタは比較的性能と効率が弱いため、プロンプトよりも優位に立つ。
このような状況下では,Cross Visual Prompt Tuning (CVPT) を提案し,広く使われている Visual Prompt Tuning (VPT) 法を改良する。
CVPTは,プロンプトトークンと組込みトークンの相互アテンションを計算し,それら間のセマンティックな関係を計算し,視覚的タスクをよりよく適応するためにモデルの微調整を行う。
さらに,クロスアテンションのパラメータを初期化するためのウェイトシェアリング機構を導入し,クロスアテンションから大量の学習可能なパラメータを回避し,クロスアテンションの代表的な能力を高める。
我々は25のデータセットにわたる総合的なテストを行い、その結果、CVPTは視覚タスクにおけるVPTのパフォーマンスと効率を大幅に改善することを示す。
例えば、VTAB-1Kベンチマークでは、CVPTは平均精度でVPTを4%以上上回り、パフォーマンスと効率の面で先進的なアダプタベースの手法に匹敵する。
実験により,視覚的微調整において,プロンプトベースの手法が例外的な結果が得られることを確認した。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。