論文の概要: PRO-VPT: Distribution-Adaptive Visual Prompt Tuning via Prompt Relocation
- arxiv url: http://arxiv.org/abs/2503.06901v2
- Date: Mon, 06 Oct 2025 13:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.472722
- Title: PRO-VPT: Distribution-Adaptive Visual Prompt Tuning via Prompt Relocation
- Title(参考訳): PRO-VPT: プロンプト移動による分布適応型ビジュアルプロンプトチューニング
- Authors: Chikai Shang, Mengke Li, Yiqun Zhang, Zhen Chen, Jinlin Wu, Fangqing Gu, Yang Lu, Yiu-ming Cheung,
- Abstract要約: 適応分布最適化(ADO)は,(1)ADOを適切にかつ正式に定義する方法,(2)この定義によって導かれる適応分布戦略をどう設計するか,という2つの重要な疑問に対処することによって導入される。
本稿では,ネスト最適化の定式化に基づく分散を適応的に調整するVPTフレームワークPro-VPTを提案する。
提案手法は,最適プロンプト分布をネストした最適化方式で適応的に学習し,VPTの潜在能力を最大限に活用する。
- 参考スコア(独自算出の注目度): 53.32478229070946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual prompt tuning (VPT), i.e., fine-tuning some lightweight prompt tokens, provides an efficient and effective approach for adapting pre-trained models to various downstream tasks. However, most prior art indiscriminately uses a fixed prompt distribution across different tasks, neglecting the importance of each block varying depending on the task. In this paper, we introduce adaptive distribution optimization (ADO) by tackling two key questions: (1) How to appropriately and formally define ADO, and (2) How to design an adaptive distribution strategy guided by this definition? Through empirical analysis, we first confirm that properly adjusting the distribution significantly improves VPT performance, and further uncover a key insight that a nested relationship exists between ADO and VPT. Based on these findings, we propose a new VPT framework, termed PRO-VPT (iterative Prompt RelOcation-based VPT), which adaptively adjusts the distribution built upon a nested optimization formulation. Specifically, we develop a prompt relocation strategy derived from this formulation, comprising two steps: pruning idle prompts from prompt-saturated blocks, followed by allocating these prompts to the most prompt-needed blocks. By iteratively performing prompt relocation and VPT, our proposal can adaptively learn the optimal prompt distribution in a nested optimization-based manner, thereby unlocking the full potential of VPT. Extensive experiments demonstrate that our proposal significantly outperforms advanced VPT methods, e.g., PRO-VPT surpasses VPT by 1.6 pp and 2.0 pp average accuracy, leading prompt-based methods to state-of-the-art performance on VTAB-1k and FGVC benchmarks. The code is available at https://github.com/ckshang/PRO-VPT.
- Abstract(参考訳): ビジュアルプロンプトチューニング(VPT)、すなわち軽量プロンプトトークンの微調整は、様々な下流タスクに事前訓練されたモデルを適応するための効率的かつ効果的なアプローチを提供する。
しかし、ほとんどの先行技術は、タスクによって異なるブロックの重要性を無視して、異なるタスクにまたがる固定的なプロンプト分布を無差別に使用している。
本稿では,(1)ADOを適切にかつ正式に定義する方法,(2)この定義で導かれる適応分布戦略をどう設計するか,という2つの重要な疑問に対処して,適応分布最適化(ADO)を導入する。
実験分析により,分布を適切に調整することでVPT性能が著しく向上することが確認され,さらにADOとVPTの間にネスト関係が存在するという重要な知見が明らかになった。
これらの知見に基づいて,ネスト最適化の定式化に基づいて分布を適応的に調整するVPTフレームワーク Pro-VPT (iterative Prompt RelOcation-based VPT) を提案する。
具体的には, 急速飽和ブロックからアイドルプロンプトを抽出し, それらのプロンプトを最も急速依存ブロックに割り当てる。
逐次再配置とVPTを反復的に実行することにより,最適化に基づく最適プロンプト分布をネストした方法で適応的に学習し,VPTの潜在能力を最大限に活用することができる。
VTAB-1k と FGVC ベンチマークでは,提案手法がVPT よりも 1.6 pp ,2.0 pp の精度でVPT をはるかに上回っていることが実証された。
コードはhttps://github.com/ckshang/PRO-VPT.comで公開されている。
関連論文リスト
- Visual Instance-aware Prompt Tuning [21.538712755298413]
Visual Prompt Tuning (VPT)は、視覚変換器のパラメータ効率の良い微調整パラダイムとして登場した。
本稿では、各入力に基づいてインスタンス認識プロンプトを生成するVisual Instance-aware Prompt Tuning (ViaPT)を提案する。
ViaPTは、学習可能なパラメータの量を削減しながら、データセットレベルとインスタンスレベルの知識のバランスをとることで、制限を克服する。
論文 参考訳(メタデータ) (2025-07-10T14:23:15Z) - SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。
本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。
効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-23T15:01:09Z) - Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。
入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。
我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文 参考訳(メタデータ) (2025-01-31T07:41:06Z) - CVPT: Cross Visual Prompt Tuning [15.642102189777072]
Cross Visual Prompt Tuning (CVPT) は、プロンプトと画像トークン間のインタラクションをモデル化するクロスアテンションモジュールである。
CVPTは平均精度を4%以上向上し、性能と効率の両面で主要なアダプタベースの手法に匹敵する。
我々の研究は、視覚的な微調整において、プロンプトベースの手法が例外的な結果が得られることを確認している。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。
FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。
5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文 参考訳(メタデータ) (2024-02-19T03:56:44Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。
19の異なるデータセットとタスクを包括的に分析します。
本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-01-23T16:48:18Z) - AutoVP: An Automated Visual Prompting Framework and Benchmark [66.5618543577204]
ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。
本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。
実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T14:55:31Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。