論文の概要: Visual Variational Autoencoder Prompt Tuning
- arxiv url: http://arxiv.org/abs/2503.17650v1
- Date: Sat, 22 Mar 2025 04:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:57.153092
- Title: Visual Variational Autoencoder Prompt Tuning
- Title(参考訳): 視覚変化型オートエンコーダのプロンプトチューニング
- Authors: Xi Xiao, Yunbei Zhang, Yanshuh Li, Xingjian Li, Tianyang Wang, Jihun Hamm, Xiao Wang, Min Xu,
- Abstract要約: 本稿では,動的に入力に依存したプロンプトを生成する新しいフレームワークであるV$2$APT(Visual Variational Autoencoder Prompt Tuning)を紹介する。
FGVC, HTA, VTAB-1kベンチマークの実験により, 提案手法は最先端PEFT法より一貫して優れていることが示された。
- 参考スコア(独自算出の注目度): 20.387933505896388
- License:
- Abstract: Parameter-efficient fine-tuning (PEFT) has emerged as a crucial approach for adapting large vision transformers to downstream tasks without the prohibitive computational costs of full fine-tuning. While existing visual prompt tuning (VPT) methods have made significant strides, they predominantly rely on static, domain-specific prompts that fail to capture the rich visual diversity within individual instances. This paper introduces V$^2$APT (Visual Variational Autoencoder Prompt Tuning), a novel framework that generates dynamic, input-dependent prompts using a variational autoencoder architecture. By learning a latent representation of image-specific features and decoding them into customized prompts, V$^2$APT adapts to the unique visual characteristics of each input. Extensive experiments on FGVC, HTA, and VTAB-1k benchmarks demonstrate that our approach consistently outperforms state-of-the-art PEFT methods. Notably, V$^2$APT achieves +3.2\% improvement over VPT-Deep on HTA, with an average performance gain of +2.0\% across all three datasets.
- Abstract(参考訳): パラメータ効率のよい微調整(PEFT)は、完全な微調整の計算コストを抑えることなく、大きな視覚変換器を下流のタスクに適用するための重要なアプローチとして登場した。
既存の視覚的プロンプトチューニング(VPT)メソッドは大きな進歩を遂げているが、それらは主に静的なドメイン固有のプロンプトに依存しており、個々のインスタンスにおけるリッチな視覚的多様性を捉えていない。
本稿では,V$^2$APT(Visual Variational Autoencoder Prompt Tuning)を提案する。
画像固有の特徴の潜在表現を学習し、それらをカスタマイズされたプロンプトに復号することで、V$^2$APTは各入力のユニークな視覚特性に適応する。
FGVC, HTA, VTAB-1kベンチマークの大規模な実験により、我々の手法は最先端PEFT法より一貫して優れていることが示された。
特に、V$^2$APTはHTA上のVPT-Deepよりも+3.2\%向上し、平均的なパフォーマンスは3つのデータセットで+2.0\%向上した。
関連論文リスト
- Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning [27.703316805290843]
Visual Prompt Tuning (VPT)は、トレーニング済みの視覚モデルを下流タスクに適応するための強力な方法として登場した。
入力の適応関数としてプロンプトを再定義する新しい世代のプロンプトであるVisual Adaptive Prompt Tuning (VAPT)を提案する。
我々の理論解析は,VAPTが最適な試料効率を実現することを示す。
論文 参考訳(メタデータ) (2025-01-31T07:41:06Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - AutoVP: An Automated Visual Prompting Framework and Benchmark [66.5618543577204]
ビジュアルプロンプト(VP)は、様々な下流画像分類タスクを解決するために、事前訓練された視覚モデルを適用するための、パラメータ効率の高い微調整手法である。
本稿では,VP設計選択を自動化するエンドツーエンド拡張可能なフレームワークであるAutoVPと,12のダウンストリーム画像分類タスクを提案する。
実験の結果,AutoVPは,現在よく知られているVP手法よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T14:55:31Z) - Dynamic Visual Prompt Tuning for Parameter Efficient Transfer Learning [0.8430481660019451]
本稿では動的ビジュアルプロンプトチューニングフレームワーク(DVPT)を提案する。
このようにして、各画像のユニークな視覚的特徴をキャプチャし、より下流の視覚的タスクに適している。
幅広い下流認識タスクの実験により、DVPTは他のPETL法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-09-12T10:47:37Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。