論文の概要: iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection
- arxiv url: http://arxiv.org/abs/2404.05207v1
- Date: Mon, 8 Apr 2024 05:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 15:23:43.656512
- Title: iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection
- Title(参考訳): iVPT:多層動的接続による視覚プロンプトチューニングにおけるタスク関連情報共有の改善
- Authors: Nan Zhou, Jiaxin Chen, Di Huang,
- Abstract要約: 本稿では,新しい視覚的プロンプトチューニング (VPT) 手法である textbfiVPT を提案する。
これは、隣接層からの入力プロンプトトークンのための層間動的接続(CDC)を導入し、タスク関連情報の効果的な共有を可能にする。
これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別することで、注意力強化(AR)メカニズムを導入している。
- 参考スコア(独自算出の注目度): 34.20778042463112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress has shown great potential of visual prompt tuning (VPT) when adapting pre-trained vision transformers to various downstream tasks. However, most existing solutions independently optimize prompts at each layer, thereby neglecting the usage of task-relevant information encoded in prompt tokens across layers. Additionally, existing prompt structures are prone to interference from task-irrelevant noise in input images, which can do harm to the sharing of task-relevant information. In this paper, we propose a novel VPT approach, \textbf{iVPT}. It innovatively incorporates a cross-layer dynamic connection (CDC) for input prompt tokens from adjacent layers, enabling effective sharing of task-relevant information. Furthermore, we design a dynamic aggregation (DA) module that facilitates selective sharing of information between layers. The combination of CDC and DA enhances the flexibility of the attention process within the VPT framework. Building upon these foundations, iVPT introduces an attentive reinforcement (AR) mechanism, by automatically identifying salient image tokens, which are further enhanced by prompt tokens in an additive manner. Extensive experiments on 24 image classification and semantic segmentation benchmarks clearly demonstrate the advantage of the proposed iVPT, compared to the state-of-the-art counterparts.
- Abstract(参考訳): 近年の進歩は、事前学習された視覚変換器を様々な下流タスクに適応させる際に、視覚的プロンプトチューニング(VPT)の大きな可能性を示している。
しかし、既存のソリューションのほとんどは、各レイヤでのプロンプトを独立して最適化しているため、レイヤ間のプロンプトトークンにエンコードされたタスク関連情報の使用は無視される。
さらに、既存のプロンプト構造は、入力画像のタスク関連ノイズから干渉しやすく、タスク関連情報の共有に悪影響を及ぼす可能性がある。
本稿では,新しい VPT アプローチである \textbf{iVPT} を提案する。
これは、隣接層からの入力プロンプトトークンのためのクロス層動的接続(CDC)を革新的に組み込んで、タスク関連情報の効果的な共有を可能にする。
さらに,レイヤ間の情報共有を容易にする動的アグリゲーション(DA)モジュールを設計する。
CDCとDAの組み合わせにより、VPTフレームワーク内の注意プロセスの柔軟性が向上する。
これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別し、追加的な方法でプロンプトトークンによってさらに強化することで、注意力強化(AR)機構を導入する。
24の画像分類とセマンティックセグメンテーションのベンチマークによる大規模な実験は、提案したiVPTの利点を最先端のものと比較して明らかに示している。
関連論文リスト
- KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
CoGCLは、離散コードを通じてより強力な協調情報でコントラスト的なビューを構築することで、グラフのコントラスト学習を強化することを目的としている。
ユーザとアイテムの表現を離散コードに定量化するために,マルチレベルベクトル量化器をエンドツーエンドで導入する。
近傍構造に対しては,離散符号を仮想隣人として扱うことにより,仮想隣人拡張を提案する。
意味的関連性については、共有された離散コードと相互作用ターゲットに基づいて類似のユーザ/イテムを識別し、意味的関連性のあるビューを生成する。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - ECAFormer: Low-light Image Enhancement using Cross Attention [11.554554006307836]
低照度画像強調(LLIE)はコンピュータビジョンにおいて重要である。
我々はクロスアテンショントランス(ECAFormer)による階層的相互強化を設計する。
我々は,ECAFormerが複数のベンチマークで競合性能に到達し,PSNRを最適化法よりも3%近く改善したことを示す。
論文 参考訳(メタデータ) (2024-06-19T07:21:31Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - A Clustering-guided Contrastive Fusion for Multi-view Representation
Learning [7.630965478083513]
本稿では、ビュー固有表現をビュー共通表現に融合する深層融合ネットワークを提案する。
また、ビュー共通表現とビュー固有表現を一致させる非対称なコントラスト戦略を設計する。
不完全な視点では,提案手法は競合相手よりもノイズ干渉に抵抗する。
論文 参考訳(メタデータ) (2022-12-28T07:21:05Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。