Fugu-MT 論文翻訳(概要): Visual Instance-aware Prompt Tuning

論文の概要: Visual Instance-aware Prompt Tuning

arxiv url: http://arxiv.org/abs/2507.07796v1
Date: Thu, 10 Jul 2025 14:23:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.440491
Title: Visual Instance-aware Prompt Tuning
Title（参考訳）: Visual Instance-Aware Prompt Tuning
Authors: Xi Xiao, Yunbei Zhang, Xingjian Li, Tianyang Wang, Xiao Wang, Yuxiang Wei, Jihun Hamm, Min Xu,
Abstract要約: Visual Prompt Tuning (VPT)は、視覚変換器のパラメータ効率の良い微調整パラダイムとして登場した。本稿では、各入力に基づいてインスタンス認識プロンプトを生成するVisual Instance-aware Prompt Tuning (ViaPT)を提案する。 ViaPTは、学習可能なパラメータの量を削減しながら、データセットレベルとインスタンスレベルの知識のバランスをとることで、制限を克服する。
参考スコア（独自算出の注目度）: 21.538712755298413
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Prompt Tuning (VPT) has emerged as a parameter-efficient fine-tuning paradigm for vision transformers, with conventional approaches utilizing dataset-level prompts that remain the same across all input instances. We observe that this strategy results in sub-optimal performance due to high variance in downstream datasets. To address this challenge, we propose Visual Instance-aware Prompt Tuning (ViaPT), which generates instance-aware prompts based on each individual input and fuses them with dataset-level prompts, leveraging Principal Component Analysis (PCA) to retain important prompting information. Moreover, we reveal that VPT-Deep and VPT-Shallow represent two corner cases based on a conceptual understanding, in which they fail to effectively capture instance-specific information, while random dimension reduction on prompts only yields performance between the two extremes. Instead, ViaPT overcomes these limitations by balancing dataset-level and instance-level knowledge, while reducing the amount of learnable parameters compared to VPT-Deep. Extensive experiments across 34 diverse datasets demonstrate that our method consistently outperforms state-of-the-art baselines, establishing a new paradigm for analyzing and optimizing visual prompts for vision transformers.
Abstract（参考訳）: Visual Prompt Tuning (VPT)はビジョントランスフォーマーのパラメータ効率のよい微調整パラダイムとして登場し、従来のアプローチではすべての入力インスタンスで同一のデータセットレベルのプロンプトを使用していた。我々は,この戦略が下流データセットのばらつきが大きいため,準最適性能をもたらすことを観察した。この課題に対処するために、各入力に基づいてインスタンス認識プロンプトを生成してデータセットレベルのプロンプトを融合するVisual Instance-aware Prompt Tuning (ViaPT)を提案する。さらに,VPT-Deep と VPT-Shallow は概念的理解に基づく2つのコーナーケースを表現し,インスタンス固有情報を効果的に取得できない一方で,プロンプトにおけるランダム次元の削減は2つの極端間の性能しか得られないことを明らかにした。その代わり、ViaPTはデータセットレベルの知識とインスタンスレベルの知識のバランスをとることでこれらの制限を克服し、VPT-Deepと比較して学習可能なパラメータの量を削減します。 34種類の多様なデータセットにわたる大規模な実験により、我々の手法は最先端のベースラインを一貫して上回り、視覚変換器の視覚的プロンプトを解析し最適化するための新しいパラダイムを確立した。

関連論文リスト

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers [13.964106147449051]
計測学習技術を利用して、プロンプトの分布が微調整性能にどのように影響するかを調べる。本稿では,プロンプトの分布を案内する新しいフレームワークであるDis Distribution Aware Visual Prompt Tuning (DA-VPT)を提案する。本手法は,画像パッチとクラストークン間で意味情報を共有するための効果的なブリッジとして,プロンプトが有効であることを示す。
論文参考訳（メタデータ） (2025-05-29T17:31:26Z)
Visual Variational Autoencoder Prompt Tuning [20.387933505896388]
本稿では,動的に入力に依存したプロンプトを生成する新しいフレームワークであるV$2$APT(Visual Variational Autoencoder Prompt Tuning)を紹介する。 FGVC, HTA, VTAB-1kベンチマークの実験により, 提案手法は最先端PEFT法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-22T04:59:51Z)
On the Expressiveness of Visual Prompt Experts [27.283335463524576]
Visual Prompt Tuning (VPT) は、タスク固有の学習可能なプロンプトトークンを挿入することで、事前学習された視覚モデルを下流タスクに適応させるのに有効であることが証明されている。本稿では,パラメータ効率を保ちながら表現力の向上を図った新しい手法である視覚適応型プロンプトチューニング(VAPT)を提案する。
論文参考訳（メタデータ） (2025-01-31T07:41:06Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
CVPT: Cross Visual Prompt Tuning [15.642102189777072]
Cross Visual Prompt Tuning (CVPT) は、プロンプトと画像トークン間のインタラクションをモデル化するクロスアテンションモジュールである。 CVPTは平均精度を4%以上向上し、性能と効率の両面で主要なアダプタベースの手法に匹敵する。我々の研究は、視覚的な微調整において、プロンプトベースの手法が例外的な結果が得られることを確認している。
論文参考訳（メタデータ） (2024-08-27T11:07:19Z)
Facing the Elephant in the Room: Visual Prompt Tuning or Full Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。 19の異なるデータセットとタスクを包括的に分析します。本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文参考訳（メタデータ） (2024-01-23T16:48:18Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。 EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。 EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文参考訳（メタデータ） (2023-03-20T06:01:53Z)
Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文参考訳（メタデータ） (2023-03-14T17:59:59Z)
Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文参考訳（メタデータ） (2022-10-13T17:50:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。