論文の概要: Token Coordinated Prompt Attention is Needed for Visual Prompting
- arxiv url: http://arxiv.org/abs/2505.02406v1
- Date: Mon, 05 May 2025 06:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.581079
- Title: Token Coordinated Prompt Attention is Needed for Visual Prompting
- Title(参考訳): 視覚プロンプトにおけるトークン協調型プロンプトアテンションの必要性
- Authors: Zichen Liu, Xu Zou, Gang Hua, Jiahuan Zhou,
- Abstract要約: 本稿では,Token Coordinated Prompt Attention (TCPA)モジュールを提案する。
我々はこれらのプロンプトをCLS PromptsとImage Promptsに切り離し、注意機構を通じてCLSトークンや画像トークンとのみ対話する。
異なる画像トークンは異なる画像パッチに対応し、多様な情報を含むので、一致したプロンプトを個別のトークンに自動的に割り当てる。
- 参考スコア(独自算出の注目度): 28.018671250553137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual prompting techniques are widely used to efficiently fine-tune pretrained Vision Transformers (ViT) by learning a small set of shared prompts for all tokens. However, existing methods overlook the unique roles of different tokens in conveying discriminative information and interact with all tokens using the same prompts, thereby limiting the representational capacity of ViT. This often leads to indistinguishable and biased prompt-extracted features, hindering performance. To address this issue, we propose a plug-and-play Token Coordinated Prompt Attention (TCPA) module, which assigns specific coordinated prompts to different tokens for attention-based interactions. Firstly, recognizing the distinct functions of CLS and image tokens-global information aggregation and local feature extraction, we disentangle the prompts into CLS Prompts and Image Prompts, which interact exclusively with CLS tokens and image tokens through attention mechanisms. This enhances their respective discriminative abilities. Furthermore, as different image tokens correspond to distinct image patches and contain diverse information, we employ a matching function to automatically assign coordinated prompts to individual tokens. This enables more precise attention interactions, improving the diversity and representational capacity of the extracted features. Extensive experiments across various benchmarks demonstrate that TCPA significantly enhances the diversity and discriminative power of the extracted features. The code is available at https://github.com/zhoujiahuan1991/ICML2025-TCPA.
- Abstract(参考訳): 視覚プロンプト技術は、全てのトークンの共有プロンプトの小さなセットを学習することで、視覚トランスフォーマー(ViT)を効率的に微調整するために広く用いられている。
しかし、既存の方法では、識別情報を伝達し、同じプロンプトを使って全てのトークンとやり取りする際、異なるトークンのユニークな役割を見落としているため、ViTの表現能力は制限される。
これはしばしば区別不能でバイアスのかかるプロンプト抽出機能につながり、パフォーマンスを損なう。
この問題に対処するために,特定の調整されたプロンプトを異なるトークンに割り当て,注目に基づくインタラクションを行う,Token Coordinated Prompt Attention (TCPA)モジュールを提案する。
まず,CLSと画像トークン・グローバル情報集約と局所特徴抽出の異なる機能を認識し,そのプロンプトをCLS PromptsとImage Promptsに切り離し,注意機構を通じてCLSトークンや画像トークンとのみ対話する。
これにより、それぞれの識別能力が向上する。
さらに、異なる画像トークンが異なる画像パッチに対応し、多様な情報を含むので、一致したプロンプトを個別のトークンに自動的に割り当てる。
これにより、より正確な注意相互作用が可能になり、抽出された特徴の多様性と表現能力が改善される。
様々なベンチマークによる大規模な実験により、TPAは抽出された特徴の多様性と識別力を大幅に向上させることが示された。
コードはhttps://github.com/zhoujiahuan 1991/ICML2025-TCPAで公開されている。
関連論文リスト
- KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Compound Tokens: Channel Fusion for Vision-Language Representation
Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文 参考訳(メタデータ) (2022-12-02T21:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。