論文の概要: Attention to Burstiness: Low-Rank Bilinear Prompt Tuning
- arxiv url: http://arxiv.org/abs/2506.22908v1
- Date: Sat, 28 Jun 2025 14:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.626989
- Title: Attention to Burstiness: Low-Rank Bilinear Prompt Tuning
- Title(参考訳): バーストネスへの注意:低ランクのバイリニアプロンプトチューニング
- Authors: Yuzhu Wang, Manni Duan, Shu Kong,
- Abstract要約: Visual Prompt Tuning (VPT) は、入力空間内の小さなパラメータの集合を学習することで、事前訓練された視覚変換器(ViT)を適応させるファンチューニング技術である。
VPTでは、画像パッチの埋め込みの相互作用から生じる値の「バーストネス」を明らかにする。
我々は、学習前において、白化データを提案し、それらを非相関化し、よりガウス的への分散を等化する。
- 参考スコア(独自算出の注目度): 10.857651069130979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Prompt Tuning (VPT) is a parameter-efficient fune-tuning technique that adapts a pre-trained vision Transformer (ViT) by learning a small set of parameters in the input space, known as prompts. In VPT, we uncover ``burstiness'' in the values arising from the interaction of image patch embeddings, and the key and query projectors within Transformer's self-attention module. Furthermore, the values of patch embeddings and the key and query projectors exhibit Laplacian and hyper-Laplacian distribution, respectively. Intuitively, these non-Gaussian distributions pose challenges for learning prompts. To address this, we propose whitening these data, de-correlating them and equalizing their variance towards more Gaussian before learning prompts. We derive the whitening matrix over random image patch embeddings and ViT's key and query projectors, and multiply it with the prompt to be learned in a bilinear manner. Surprisingly, this method significantly accelerates prompt tuning and boosts accuracy, e.g., $>$25 accuracy points on the CUB dataset; interestingly, it learns ``bursty prompts''. Extending the bilinear model which is known to introduce burstiness, we present a compact, low-rank version by learning two smaller matrices whose multiplication yields the final prompts. We call the proposed methods Bilinear Prompt Tuning (BPT). Extensive experiments across multiple benchmark datasets demonstrate that BPT methods not only outperform various VPT methods but also reduce parameter count and computation overhead.
- Abstract(参考訳): Visual Prompt Tuning (VPT) は、事前訓練された視覚変換器(ViT)に適応し、入力空間内の小さなパラメータの集合(プロンプト)を学習する。
VPTでは、イメージパッチの埋め込みと、Transformerの自己保持モジュール内のキーおよびクエリプロジェクタの相互作用から生じる値の‘burstiness’を明らかにする。
さらに、パッチ埋め込みの値とキーおよびクエリプロジェクタはそれぞれラプラシアン分布とハイパーラプラシアン分布を示す。
直感的には、これらの非ガウス分布は学習のプロンプトに挑戦する。
そこで本研究では,これらのデータの白化,非相関化,よりガウス的への分散の等化などを提案する。
ランダムな画像パッチ埋め込みとViTのキーおよびクエリプロジェクタ上でのホワイトニング行列を導出し、バイリニアな方法で学習するプロンプトと乗算する。
驚いたことに、この方法はプロンプトチューニングを著しく加速し、例えば、CUBデータセット上の$>25の精度ポイントを精度を高める。
バースト性を導入することが知られている双線形モデルを拡張し、乗算によって最終的なプロンプトが得られる2つの小さな行列を学習することにより、コンパクトで低ランクなモデルを示す。
提案手法をBPT(Bilinear Prompt Tuning)と呼ぶ。
複数のベンチマークデータセットにわたる大規模な実験により、BPT法は様々なVPT法より優れているだけでなく、パラメータ数や計算オーバーヘッドも低減していることが示された。
関連論文リスト
- On the Expressiveness of Visual Prompt Experts [27.283335463524576]
Visual Prompt Tuning (VPT) は、タスク固有の学習可能なプロンプトトークンを挿入することで、事前学習された視覚モデルを下流タスクに適応させるのに有効であることが証明されている。
本稿では,パラメータ効率を保ちながら表現力の向上を図った新しい手法である視覚適応型プロンプトチューニング(VAPT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T07:41:06Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained
Models for Spatiotemporal Modeling [32.603558214472265]
本稿では,アクション認識などのビデオベースアプリケーションに対して,Attention Prompt Tuning(APT)を導入する。
APTは、バックボーンを凍結させながら微調整中にデータトークンとともに学習可能なプロンプトのセットを注入する。
提案手法は,FLOPとレイテンシを著しく低減するとともに,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:41Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。