論文の概要: CVPT: Cross Visual Prompt Tuning
- arxiv url: http://arxiv.org/abs/2408.14961v2
- Date: Sat, 19 Jul 2025 15:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.689289
- Title: CVPT: Cross Visual Prompt Tuning
- Title(参考訳): CVPT: クロスビジュアルプロンプトチューニング
- Authors: Lingyun Huang, Jianxu Mao, Junfei Yi, Ziming Tao, Yaonan Wang,
- Abstract要約: Cross Visual Prompt Tuning (CVPT) は、プロンプトと画像トークン間のインタラクションをモデル化するクロスアテンションモジュールである。
CVPTは平均精度を4%以上向上し、性能と効率の両面で主要なアダプタベースの手法に匹敵する。
我々の研究は、視覚的な微調整において、プロンプトベースの手法が例外的な結果が得られることを確認している。
- 参考スコア(独自算出の注目度): 15.642102189777072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) has emerged to mitigate the computational demands of large-scale models. Within computer vision, adapter-based PEFT methods are often favored over prompt-based approaches like Visual Prompt Tuning (VPT) due to the latter's performance and efficiency limitations. Our analysis reveals that VPT's shortcomings stem from its prompt deployment strategy, which can distort the model's inherent self-attention mechanism. To address this, we propose Cross Visual Prompt Tuning (CVPT). CVPT introduces a cross-attention module to directly model interactions between prompts and image tokens. This design decouples the prompts from the input sequence, preserving the original self-attention integrity while enabling efficient feature integration. Furthermore, we employ a weight-sharing mechanism for cross-attention initialization, which enhances representative capability without a large parameter overhead. Extensive experiments across 25 datasets show that CVPT significantly outperforms VPT. For instance, on the VTAB-1K benchmark, CVPT achieves over 4% higher average accuracy, rivaling leading adapter-based methods in both performance and efficiency. Our work confirms that prompt-based methods can achieve exceptional results in visual fine-tuning. The code is available at https://github.com/Lingyun0419/CVPT
- Abstract(参考訳): パラメータ効率の良いファインチューニング(PEFT)が登場し、大規模モデルの計算要求を軽減している。
コンピュータビジョンでは、アダプタベースのPEFTメソッドは、後者の性能と効率の制限により、Visual Prompt Tuning (VPT)のようなプロンプトベースのアプローチよりも好まれる。
分析の結果,VPTの欠点は,モデル固有の自己意識機構を歪めてしまうような,迅速なデプロイメント戦略に起因していることが判明した。
そこで我々は,Cross Visual Prompt Tuning (CVPT)を提案する。
CVPTでは、プロンプトと画像トークン間の相互作用を直接モデル化するクロスアテンションモジュールが導入されている。
この設計は、入力シーケンスからプロンプトを分離し、効率的な機能統合を実現しつつ、元の自己アテンションの整合性を維持する。
さらに,クロスアテンション初期化のためのウェイトシェアリング機構を採用し,パラメータのオーバーヘッドが大きいことなく代表能力を向上させる。
25のデータセットにわたる大規模な実験では、CVPTがVPTを著しく上回っている。
例えば、VTAB-1Kベンチマークでは、CVPTはパフォーマンスと効率の両面で主要なアダプタベースの手法に匹敵する平均精度を4%以上達成している。
我々の研究は、視覚的な微調整において、プロンプトベースの手法が例外的な結果が得られることを確認している。
コードはhttps://github.com/Lingyun0419/CVPTで公開されている。
関連論文リスト
- Visual Instance-aware Prompt Tuning [21.538712755298413]
Visual Prompt Tuning (VPT)は、視覚変換器のパラメータ効率の良い微調整パラダイムとして登場した。
本稿では、各入力に基づいてインスタンス認識プロンプトを生成するVisual Instance-aware Prompt Tuning (ViaPT)を提案する。
ViaPTは、学習可能なパラメータの量を削減しながら、データセットレベルとインスタンスレベルの知識のバランスをとることで、制限を克服する。
論文 参考訳(メタデータ) (2025-07-10T14:23:15Z) - Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。
入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。
我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文 参考訳(メタデータ) (2025-01-31T07:41:06Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。
19の異なるデータセットとタスクを包括的に分析します。
本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-01-23T16:48:18Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Visual Prompt Tuning for Test-time Domain Adaptation [48.16620171809511]
本稿では,2つの重要な要素を持つデータ効率・プロンプト・チューニング(DePT)と呼ばれる簡単なレシピを提案する。
このようなパラメータ効率の良い微調整は,学習対象の雑音に過度に適応することなく,モデル表現を対象領域に効率よく適応させることができる。
パラメータがはるかに少ないため、DePTは主要な適応ベンチマークにおける最先端のパフォーマンスだけでなく、優れたデータ効率を示す。
論文 参考訳(メタデータ) (2022-10-10T16:45:13Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。