論文の概要: Visual Instance-aware Prompt Tuning
- arxiv url: http://arxiv.org/abs/2507.07796v1
- Date: Thu, 10 Jul 2025 14:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.440491
- Title: Visual Instance-aware Prompt Tuning
- Title(参考訳): Visual Instance-Aware Prompt Tuning
- Authors: Xi Xiao, Yunbei Zhang, Xingjian Li, Tianyang Wang, Xiao Wang, Yuxiang Wei, Jihun Hamm, Min Xu,
- Abstract要約: Visual Prompt Tuning (VPT)は、視覚変換器のパラメータ効率の良い微調整パラダイムとして登場した。
本稿では、各入力に基づいてインスタンス認識プロンプトを生成するVisual Instance-aware Prompt Tuning (ViaPT)を提案する。
ViaPTは、学習可能なパラメータの量を削減しながら、データセットレベルとインスタンスレベルの知識のバランスをとることで、制限を克服する。
- 参考スコア(独自算出の注目度): 21.538712755298413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Prompt Tuning (VPT) has emerged as a parameter-efficient fine-tuning paradigm for vision transformers, with conventional approaches utilizing dataset-level prompts that remain the same across all input instances. We observe that this strategy results in sub-optimal performance due to high variance in downstream datasets. To address this challenge, we propose Visual Instance-aware Prompt Tuning (ViaPT), which generates instance-aware prompts based on each individual input and fuses them with dataset-level prompts, leveraging Principal Component Analysis (PCA) to retain important prompting information. Moreover, we reveal that VPT-Deep and VPT-Shallow represent two corner cases based on a conceptual understanding, in which they fail to effectively capture instance-specific information, while random dimension reduction on prompts only yields performance between the two extremes. Instead, ViaPT overcomes these limitations by balancing dataset-level and instance-level knowledge, while reducing the amount of learnable parameters compared to VPT-Deep. Extensive experiments across 34 diverse datasets demonstrate that our method consistently outperforms state-of-the-art baselines, establishing a new paradigm for analyzing and optimizing visual prompts for vision transformers.
- Abstract(参考訳): Visual Prompt Tuning (VPT)はビジョントランスフォーマーのパラメータ効率のよい微調整パラダイムとして登場し、従来のアプローチではすべての入力インスタンスで同一のデータセットレベルのプロンプトを使用していた。
我々は,この戦略が下流データセットのばらつきが大きいため,準最適性能をもたらすことを観察した。
この課題に対処するために、各入力に基づいてインスタンス認識プロンプトを生成してデータセットレベルのプロンプトを融合するVisual Instance-aware Prompt Tuning (ViaPT)を提案する。
さらに,VPT-Deep と VPT-Shallow は概念的理解に基づく2つのコーナーケースを表現し,インスタンス固有情報を効果的に取得できない一方で,プロンプトにおけるランダム次元の削減は2つの極端間の性能しか得られないことを明らかにした。
その代わり、ViaPTはデータセットレベルの知識とインスタンスレベルの知識のバランスをとることでこれらの制限を克服し、VPT-Deepと比較して学習可能なパラメータの量を削減します。
34種類の多様なデータセットにわたる大規模な実験により、我々の手法は最先端のベースラインを一貫して上回り、視覚変換器の視覚的プロンプトを解析し最適化するための新しいパラダイムを確立した。
関連論文リスト
- On the Expressiveness of Visual Prompt Experts [27.283335463524576]
Visual Prompt Tuning (VPT) は、タスク固有の学習可能なプロンプトトークンを挿入することで、事前学習された視覚モデルを下流タスクに適応させるのに有効であることが証明されている。
本稿では,パラメータ効率を保ちながら表現力の向上を図った新しい手法である視覚適応型プロンプトチューニング(VAPT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T07:41:06Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。
19の異なるデータセットとタスクを包括的に分析します。
本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-01-23T16:48:18Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。