論文の概要: DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers
- arxiv url: http://arxiv.org/abs/2505.23694v1
- Date: Thu, 29 May 2025 17:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.038547
- Title: DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers
- Title(参考訳): DA-VPT:視覚変換用セマンティックガイド型ビジュアルプロンプトチューニング
- Authors: Li Ren, Chen Chen, Liqiang Wang, Kien Hua,
- Abstract要約: 計測学習技術を利用して、プロンプトの分布が微調整性能にどのように影響するかを調べる。
本稿では,プロンプトの分布を案内する新しいフレームワークであるDis Distribution Aware Visual Prompt Tuning (DA-VPT)を提案する。
本手法は,画像パッチとクラストークン間で意味情報を共有するための効果的なブリッジとして,プロンプトが有効であることを示す。
- 参考スコア(独自算出の注目度): 13.964106147449051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Prompt Tuning (VPT) has become a promising solution for Parameter-Efficient Fine-Tuning (PEFT) approach for Vision Transformer (ViT) models by partially fine-tuning learnable tokens while keeping most model parameters frozen. Recent research has explored modifying the connection structures of the prompts. However, the fundamental correlation and distribution between the prompts and image tokens remain unexplored. In this paper, we leverage metric learning techniques to investigate how the distribution of prompts affects fine-tuning performance. Specifically, we propose a novel framework, Distribution Aware Visual Prompt Tuning (DA-VPT), to guide the distributions of the prompts by learning the distance metric from their class-related semantic data. Our method demonstrates that the prompts can serve as an effective bridge to share semantic information between image patches and the class token. We extensively evaluated our approach on popular benchmarks in both recognition and segmentation tasks. The results demonstrate that our approach enables more effective and efficient fine-tuning of ViT models by leveraging semantic information to guide the learning of the prompts, leading to improved performance on various downstream vision tasks.
- Abstract(参考訳): Visual Prompt Tuning (VPT) は、ほとんどのモデルパラメータを凍結したまま、部分的に微調整可能なトークンによって視覚変換器(ViT)モデルに対するパラメータ効率の良いファインチューニング(PEFT)アプローチの有望なソリューションとなった。
近年の研究では、プロンプトの接続構造の変更が検討されている。
しかし、プロンプトと画像トークンの基本的な相関と分布は未解明のままである。
本稿では,計測学習技術を活用し,プロンプトの分布が微調整性能に与える影響について検討する。
具体的には,クラス関連セマンティックデータから距離メトリックを学習することにより,プロンプトの分布を誘導する新しいフレームワークであるDis Distribution Aware Visual Prompt Tuning (DA-VPT)を提案する。
本手法は,画像パッチとクラストークン間で意味情報を共有するための効果的なブリッジとして,プロンプトが有効であることを示す。
認識タスクとセグメンテーションタスクの両方において、一般的なベンチマークに対して、我々のアプローチを広範囲に評価した。
その結果,提案手法は,インプットの学習を誘導するために意味情報を活用することで,より効率的かつ効率的なViTモデルの微調整を可能にし,様々な下流視覚タスクの性能向上を図っている。
関連論文リスト
- Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Selective Visual Prompting in Vision Mamba [35.86547398432339]
事前訓練されたVision Mamba(Vim)モデルは、様々なコンピュータビジョンタスクで例外的な性能を示した。
既存の視覚プロンプト法は、視覚変換器(ViT)ベースのモデルに主に適合している。
本稿では,Vimの高効率微調整のための新しい選択型視覚プロンプティング(SVP)手法を提案する。
論文 参考訳(メタデータ) (2024-12-12T05:24:06Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Prompt-Matched Semantic Segmentation [96.99924127527002]
本研究の目的は、事前学習した基礎モデルを、画像意味セグメンテーションの下流の様々なタスクに効果的に適応する方法を検討することである。
本稿では,タスク指向のチューニングに適応的に視覚的プロンプトを生成するとともに,基礎モデルの本来の構造を維持できる新しい階層間プロンプトマッチングフレームワークを提案する。
次に、Semantic-aware Prompt Matcherと呼ばれる軽量モジュールを導入し、2つのステージ間で階層的に補間し、各タスクに対して適切なプロンプトを学習する。
論文 参考訳(メタデータ) (2022-08-22T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。