論文の概要: iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection
- arxiv url: http://arxiv.org/abs/2404.05207v1
- Date: Mon, 8 Apr 2024 05:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:23:43.656512
- Title: iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection
- Title(参考訳): iVPT:多層動的接続による視覚プロンプトチューニングにおけるタスク関連情報共有の改善
- Authors: Nan Zhou, Jiaxin Chen, Di Huang,
- Abstract要約: 本稿では,新しい視覚的プロンプトチューニング (VPT) 手法である textbfiVPT を提案する。
これは、隣接層からの入力プロンプトトークンのための層間動的接続(CDC)を導入し、タスク関連情報の効果的な共有を可能にする。
これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別することで、注意力強化(AR)メカニズムを導入している。
- 参考スコア(独自算出の注目度): 34.20778042463112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress has shown great potential of visual prompt tuning (VPT) when adapting pre-trained vision transformers to various downstream tasks. However, most existing solutions independently optimize prompts at each layer, thereby neglecting the usage of task-relevant information encoded in prompt tokens across layers. Additionally, existing prompt structures are prone to interference from task-irrelevant noise in input images, which can do harm to the sharing of task-relevant information. In this paper, we propose a novel VPT approach, \textbf{iVPT}. It innovatively incorporates a cross-layer dynamic connection (CDC) for input prompt tokens from adjacent layers, enabling effective sharing of task-relevant information. Furthermore, we design a dynamic aggregation (DA) module that facilitates selective sharing of information between layers. The combination of CDC and DA enhances the flexibility of the attention process within the VPT framework. Building upon these foundations, iVPT introduces an attentive reinforcement (AR) mechanism, by automatically identifying salient image tokens, which are further enhanced by prompt tokens in an additive manner. Extensive experiments on 24 image classification and semantic segmentation benchmarks clearly demonstrate the advantage of the proposed iVPT, compared to the state-of-the-art counterparts.
- Abstract(参考訳): 近年の進歩は、事前学習された視覚変換器を様々な下流タスクに適応させる際に、視覚的プロンプトチューニング(VPT)の大きな可能性を示している。
しかし、既存のソリューションのほとんどは、各レイヤでのプロンプトを独立して最適化しているため、レイヤ間のプロンプトトークンにエンコードされたタスク関連情報の使用は無視される。
さらに、既存のプロンプト構造は、入力画像のタスク関連ノイズから干渉しやすく、タスク関連情報の共有に悪影響を及ぼす可能性がある。
本稿では,新しい VPT アプローチである \textbf{iVPT} を提案する。
これは、隣接層からの入力プロンプトトークンのためのクロス層動的接続(CDC)を革新的に組み込んで、タスク関連情報の効果的な共有を可能にする。
さらに,レイヤ間の情報共有を容易にする動的アグリゲーション(DA)モジュールを設計する。
CDCとDAの組み合わせにより、VPTフレームワーク内の注意プロセスの柔軟性が向上する。
これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別し、追加的な方法でプロンプトトークンによってさらに強化することで、注意力強化(AR)機構を導入する。
24の画像分類とセマンティックセグメンテーションのベンチマークによる大規模な実験は、提案したiVPTの利点を最先端のものと比較して明らかに示している。
関連論文リスト
- Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - VPUFormer: Visual Prompt Unified Transformer for Interactive Image
Segmentation [22.160123481160834]
本稿では,VPUFormer(Visual Prompt Unified Transformer)を提案する。
セグメンテーション性能を高めるために、より深い相互作用を伴う簡潔な統一されたプロンプト表現を導入する。
7つの挑戦的なデータセットに関する包括的な実験は、提案されたVPUFormerが一貫した改善を実現していることを示している。
論文 参考訳(メタデータ) (2023-06-11T12:00:33Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。