論文の概要: Attention to the Burstiness in Visual Prompt Tuning!
- arxiv url: http://arxiv.org/abs/2506.22908v2
- Date: Mon, 18 Aug 2025 02:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.097779
- Title: Attention to the Burstiness in Visual Prompt Tuning!
- Title(参考訳): Visual Prompt Tuningのバーストネスへの注意!
- Authors: Yuzhu Wang, Manni Duan, Shu Kong,
- Abstract要約: Visual Prompt Tuning (VPT) は、入力空間内の小さなパラメータの集合を学習することで、事前訓練された視覚変換器(ViT)を適応させるファンチューニング技術である。
VPTでは、画像パッチの埋め込みの相互作用から生じる値の「バーストネス」を明らかにする。
我々は、学習前において、白化データを提案し、それらを非相関化し、よりガウス的への分散を等化する。
- 参考スコア(独自算出の注目度): 10.857651069130979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Prompt Tuning (VPT) is a parameter-efficient fune-tuning technique that adapts a pre-trained vision Transformer (ViT) by learning a small set of parameters in the input space, known as prompts. In VPT, we uncover ``burstiness'' in the values arising from the interaction of image patch embeddings, and the key and query projectors within Transformer's self-attention module. Furthermore, the values of patch embeddings and the key and query projectors exhibit Laplacian and hyper-Laplacian distribution, respectively. Intuitively, these non-Gaussian distributions pose challenges for learning prompts. To address this, we propose whitening these data, de-correlating them and equalizing their variance towards more Gaussian before learning prompts. We derive the whitening matrix over random image patch embeddings and ViT's key and query projectors, and multiply it with the prompt to be learned in a bilinear manner. Surprisingly, this method significantly accelerates prompt tuning and boosts accuracy, e.g., $>$25 accuracy points on the CUB dataset; interestingly, it learns ``bursty prompts''. Extending the bilinear model which is known to introduce burstiness, we present a compact, low-rank version by learning two smaller matrices whose multiplication yields the final prompts. We call the proposed methods Bilinear Prompt Tuning (BPT). Extensive experiments across multiple benchmark datasets demonstrate that BPT methods not only outperform various VPT methods but also reduce parameter count and computation overhead.
- Abstract(参考訳): Visual Prompt Tuning (VPT) は、事前訓練された視覚変換器(ViT)に適応し、入力空間内の小さなパラメータの集合(プロンプト)を学習する。
VPTでは、イメージパッチの埋め込みと、Transformerの自己保持モジュール内のキーおよびクエリプロジェクタの相互作用から生じる値の‘burstiness’を明らかにする。
さらに、パッチ埋め込みの値とキーおよびクエリプロジェクタはそれぞれラプラシアン分布とハイパーラプラシアン分布を示す。
直感的には、これらの非ガウス分布は学習のプロンプトに挑戦する。
そこで本研究では,これらのデータの白化,非相関化,よりガウス的への分散の等化などを提案する。
ランダムな画像パッチ埋め込みとViTのキーおよびクエリプロジェクタ上でのホワイトニング行列を導出し、バイリニアな方法で学習するプロンプトと乗算する。
驚いたことに、この方法はプロンプトチューニングを著しく加速し、例えば、CUBデータセット上の$>25の精度ポイントを精度を高める。
バースト性を導入することが知られている双線形モデルを拡張し、乗算によって最終的なプロンプトが得られる2つの小さな行列を学習することにより、コンパクトで低ランクなモデルを示す。
提案手法をBPT(Bilinear Prompt Tuning)と呼ぶ。
複数のベンチマークデータセットにわたる大規模な実験により、BPT法は様々なVPT法より優れているだけでなく、パラメータ数や計算オーバーヘッドも低減していることが示された。
関連論文リスト
- DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers [13.964106147449051]
計測学習技術を利用して、プロンプトの分布が微調整性能にどのように影響するかを調べる。
本稿では,プロンプトの分布を案内する新しいフレームワークであるDis Distribution Aware Visual Prompt Tuning (DA-VPT)を提案する。
本手法は,画像パッチとクラストークン間で意味情報を共有するための効果的なブリッジとして,プロンプトが有効であることを示す。
論文 参考訳(メタデータ) (2025-05-29T17:31:26Z) - On the Expressiveness of Visual Prompt Experts [27.283335463524576]
Visual Prompt Tuning (VPT) は、タスク固有の学習可能なプロンプトトークンを挿入することで、事前学習された視覚モデルを下流タスクに適応させるのに有効であることが証明されている。
本稿では,パラメータ効率を保ちながら表現力の向上を図った新しい手法である視覚適応型プロンプトチューニング(VAPT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T07:41:06Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained
Models for Spatiotemporal Modeling [32.603558214472265]
本稿では,アクション認識などのビデオベースアプリケーションに対して,Attention Prompt Tuning(APT)を導入する。
APTは、バックボーンを凍結させながら微調整中にデータトークンとともに学習可能なプロンプトのセットを注入する。
提案手法は,FLOPとレイテンシを著しく低減するとともに,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:41Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。