論文の概要: Iterative Prompt Relocation for Distribution-Adaptive Visual Prompt Tuning
- arxiv url: http://arxiv.org/abs/2503.06901v1
- Date: Mon, 10 Mar 2025 04:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:03.045094
- Title: Iterative Prompt Relocation for Distribution-Adaptive Visual Prompt Tuning
- Title(参考訳): 分布適応型視覚プロンプトチューニングのための反復的プロンプト移動法
- Authors: Chikai Shang, Mengke Li, Yiqun Zhang, Zhen Chen, Jinlin Wu, Fangqing Gu, Yang Lu, Yiu-ming Cheung,
- Abstract要約: 本稿では,Nested Optimization の定式化に基づいて分散構造を適応的に調整する Pro-VPT (iterative Prompt RelOcation-based VPT) を提案する。
Pro-VPT は VPT を平均精度 1.6% で上回り、VTAB-1k ベンチマークの最先端性能へのプロンプトベースの手法を導いた。
- 参考スコア(独自算出の注目度): 31.84894613827193
- License:
- Abstract: Visual prompt tuning (VPT) provides an efficient and effective solution for adapting pre-trained models to various downstream tasks by incorporating learnable prompts. However, most prior art indiscriminately applies a fixed prompt distribution across different tasks, neglecting the importance of each block differing depending on the task. In this paper, we investigate adaptive distribution optimization (ADO) by addressing two key questions: (1) How to appropriately and formally define ADO, and (2) How to design an adaptive distribution strategy guided by this definition? Through in-depth analysis, we provide an affirmative answer that properly adjusting the distribution significantly improves VPT performance, and further uncover a key insight that a nested relationship exists between ADO and VPT. Based on these findings, we propose a new VPT framework, termed PRO-VPT (iterative Prompt RelOcation-based VPT), which adaptively adjusts the distribution building upon a nested optimization formulation. Specifically, we develop a prompt relocation strategy for ADO derived from this formulation, comprising two optimization steps: identifying and pruning idle prompts, followed by determining the optimal blocks for their relocation. By iteratively performing prompt relocation and VPT, our proposal adaptively learns the optimal prompt distribution, thereby unlocking the full potential of VPT. Extensive experiments demonstrate that our proposal significantly outperforms state-of-the-art VPT methods, e.g., PRO-VPT surpasses VPT by 1.6% average accuracy, leading prompt-based methods to state-of-the-art performance on the VTAB-1k benchmark. The code is available at https://github.com/ckshang/PRO-VPT.
- Abstract(参考訳): ビジュアルプロンプトチューニング(VPT)は、学習可能なプロンプトを組み込むことで、事前訓練されたモデルを様々な下流タスクに適応するための効率的かつ効果的なソリューションを提供する。
しかし、ほとんどの先行技術は、タスクごとに異なるブロックの重要性を無視して、異なるタスクに固定的なプロンプト分布を適用している。
本稿では, 適応分布最適化 (ADO) について, (1) ADOを適切に, 形式的に定義する方法, (2) この定義で導かれる適応分布戦略をどう設計するかという2つの重要な疑問に対処して検討する。
詳細な分析を通じて、分布を適切に調整することでVPT性能が大幅に向上し、さらにADOとVPTの間にネスト関係が存在するという重要な知見を明らかにする。
これらの結果に基づき,我々はPRO-VPT (iterative Prompt RelOcation-based VPT) と呼ばれる新しいVPTフレームワークを提案する。
具体的には、この定式化から派生したADOの早期配置戦略を開発し、アイドルプロンプトの識別と刈り取りの2つの最適化ステップと、その再配置のための最適なブロックを決定する。
即時再配置とVPTを反復的に行うことにより,提案手法は最適なプロンプト分布を適応的に学習し,VPTの潜在能力を解放する。
VTAB-1kベンチマークでは,提案手法がVPTを1.6%の精度で上回り,最先端のVPT手法よりも優れた結果が得られた。
コードはhttps://github.com/ckshang/PRO-VPT.comで公開されている。
関連論文リスト
- Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。
入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。
我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文 参考訳(メタデータ) (2025-01-31T07:41:06Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。
FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。
5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文 参考訳(メタデータ) (2024-02-19T03:56:44Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。
19の異なるデータセットとタスクを包括的に分析します。
本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-01-23T16:48:18Z) - AutoVP: An Automated Visual Prompting Framework and Benchmark [66.5618543577204]
ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。
本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。
実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T14:55:31Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Visual Prompt Tuning for Test-time Domain Adaptation [48.16620171809511]
本稿では,2つの重要な要素を持つデータ効率・プロンプト・チューニング(DePT)と呼ばれる簡単なレシピを提案する。
このようなパラメータ効率の良い微調整は,学習対象の雑音に過度に適応することなく,モデル表現を対象領域に効率よく適応させることができる。
パラメータがはるかに少ないため、DePTは主要な適応ベンチマークにおける最先端のパフォーマンスだけでなく、優れたデータ効率を示す。
論文 参考訳(メタデータ) (2022-10-10T16:45:13Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。