論文の概要: On the Expressiveness of Visual Prompt Experts
- arxiv url: http://arxiv.org/abs/2501.18936v5
- Date: Tue, 03 Jun 2025 04:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.477314
- Title: On the Expressiveness of Visual Prompt Experts
- Title(参考訳): ビジュアル・プロンプト・エキスパートの表現性について
- Authors: Minh Le, Anh Nguyen, Huy Nguyen, Chau Nguyen, Anh Tran, Nhat Ho,
- Abstract要約: Visual Prompt Tuning (VPT) は、タスク固有の学習可能なプロンプトトークンを挿入することで、事前学習された視覚モデルを下流タスクに適応させるのに有効であることが証明されている。
本稿では,パラメータ効率を保ちながら表現力の向上を図った新しい手法である視覚適応型プロンプトチューニング(VAPT)を提案する。
- 参考スコア(独自算出の注目度): 27.283335463524576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Prompt Tuning (VPT) has proven effective for parameter-efficient adaptation of pre-trained vision models to downstream tasks by inserting task-specific learnable prompt tokens. Despite its empirical success, a comprehensive theoretical understanding of VPT remains an active area of research. Building on the recently established connection between Mixture of Experts (MoE) and prompt-based methods, wherein each attention head can be conceptualized as a composition of multiple MoE models, we reinterpret VPT as the introduction of new prompt experts into these MoE structures. We identify a key limitation in existing VPT frameworks: the restricted functional expressiveness of prompt experts, which remain static and thus limited in their adaptability. To address this, we propose Visual Adaptive Prompt Tuning (VAPT), a novel method that endows prompt experts with enhanced expressiveness while preserving parameter efficiency. Empirical evaluations on VTAB-1K and FGVC demonstrate that VAPT achieves substantial performance improvements, surpassing fully fine-tuned baselines by 7.34% and 1.04%, respectively. Moreover, VAPT consistently outperforms VPT while requiring fewer additional parameters. Furthermore, our theoretical analysis indicates that VAPT achieves optimal sample efficiency. Collectively, these results underscore the theoretical grounding and empirical advantages of our approach.
- Abstract(参考訳): Visual Prompt Tuning (VPT) は、タスク固有の学習可能なプロンプトトークンを挿入することで、事前学習された視覚モデルを下流タスクに適応させるのに有効であることが証明されている。
実証的な成功にもかかわらず、VPTの包括的な理論的理解は依然として研究の活発な領域である。
最近確立されたMOE(Mixture of Experts)とプロンプトベースの手法の関連性に基づいて構築され、各アテンションヘッドは複数のMoEモデルの合成として概念化できるため、これらのMoE構造に新たなプロンプトエキスパートを導入するものとしてVPTを再解釈する。
既存のVPTフレームワークにおける重要な制限は、プロンプトの専門家の限定的機能表現である。
そこで本研究では,パラメータ効率を保ちながら表現性を高めた専門家を育成する新しい手法であるVisual Adaptive Prompt Tuning(VAPT)を提案する。
VTAB-1KとFGVCの実証的な評価は、VAPTがそれぞれ7.34%、1.04%の細調整されたベースラインを超え、大幅な性能向上を実現していることを示している。
さらにVAPTはVPTを一貫して上回り、追加のパラメータは少ない。
さらに,本理論解析により,VAPTが最適な試料効率を実現することが示唆された。
これらの結果は,提案手法の理論的根拠と実証的利点を総合的に裏付けるものである。
関連論文リスト
- Iterative Prompt Relocation for Distribution-Adaptive Visual Prompt Tuning [31.84894613827193]
本稿では,Nested Optimization の定式化に基づいて分散構造を適応的に調整する Pro-VPT (iterative Prompt RelOcation-based VPT) を提案する。
Pro-VPT は VPT を平均精度 1.6% で上回り、VTAB-1k ベンチマークの最先端性能へのプロンプトベースの手法を導いた。
論文 参考訳(メタデータ) (2025-03-10T04:07:43Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Do We Really Need a Large Number of Visual Prompts? [23.85637456240694]
視覚変換器アーキテクチャの微調整性能と自己注意操作に及ぼすプロンプト数の影響を解析する。
本稿では,少数のプロンプトを用いて性能劣化を防止することを目的とした,PC(Prompt Condensation)技術を提案する。
論文 参考訳(メタデータ) (2023-05-26T19:31:57Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。