論文の概要: Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning
- arxiv url: http://arxiv.org/abs/2501.18936v2
- Date: Tue, 04 Feb 2025 05:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 11:34:36.467788
- Title: Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning
- Title(参考訳): Adaptive Prompt: Visual Prompt Tuningのパワーを解き放つ
- Authors: Minh Le, Anh Nguyen, Huy Nguyen, Chau Nguyen, Nhat Ho,
- Abstract要約: Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。
入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。
我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
- 参考スコア(独自算出の注目度): 27.703316805290843
- License:
- Abstract: Visual Prompt Tuning (VPT) has recently emerged as a powerful method for adapting pre-trained vision models to downstream tasks. By introducing learnable prompt tokens as task-specific instructions, VPT effectively guides pre-trained transformer models with minimal overhead. Despite its empirical success, a comprehensive theoretical understanding of VPT remains an active area of research. Building on recent insights into the connection between mixture of experts and prompt-based approaches, we identify a key limitation in VPT: the restricted functional expressiveness in prompt formulation. To address this limitation, we propose Visual Adaptive Prompt Tuning (VAPT), a new generation of prompts that redefines prompts as adaptive functions of the input. Our theoretical analysis shows that this simple yet intuitive approach achieves optimal sample efficiency. Empirical results on VTAB-1K and FGVC further demonstrate VAPT's effectiveness, with performance gains of 7.34% and 1.04% over fully fine-tuning baselines, respectively. Notably, VAPT also surpasses VPT by a substantial margin while using fewer parameters. These results highlight both the effectiveness and efficiency of our method and pave the way for future research to explore the potential of adaptive prompts.
- Abstract(参考訳): Visual Prompt Tuning (VPT)は、最近、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。
学習可能なプロンプトトークンをタスク固有の命令として導入することで、VPTは最小限のオーバーヘッドでトレーニング済みのトランスフォーマーモデルを効果的にガイドする。
実証的な成功にもかかわらず、VPTの包括的な理論的理解は依然として研究の活発な領域である。
専門家とプロンプトベースのアプローチの混在に関する最近の知見に基づいて、我々はVPTにおける重要な制限、すなわち、迅速な定式化における機能的表現性の制限を特定した。
この制限に対処するために、入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。
我々の理論的分析は、この単純で直感的なアプローチが最適なサンプル効率を実現することを示している。
VTAB-1KとFGVCの実証的な結果はVAPTの有効性をさらに証明し、完全な微調整ベースラインよりもパフォーマンスが7.34%、1.04%向上した。
特にVAPTは、パラメータを減らしながら、VPTをかなり上回ります。
これらの結果は,本手法の有効性と効率を両立させ,適応的プロンプトの可能性を探るための今後の研究の道を開くものである。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Do We Really Need a Large Number of Visual Prompts? [23.85637456240694]
視覚変換器アーキテクチャの微調整性能と自己注意操作に及ぼすプロンプト数の影響を解析する。
本稿では,少数のプロンプトを用いて性能劣化を防止することを目的とした,PC(Prompt Condensation)技術を提案する。
論文 参考訳(メタデータ) (2023-05-26T19:31:57Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。