論文の概要: Selective Visual Prompting in Vision Mamba
- arxiv url: http://arxiv.org/abs/2412.08947v1
- Date: Thu, 12 Dec 2024 05:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:02.207405
- Title: Selective Visual Prompting in Vision Mamba
- Title(参考訳): 視覚マンバにおける選択的視覚プロンプティング
- Authors: Yifeng Yao, Zichen Liu, Zhenyu Cui, Yuxin Peng, Jiahuan Zhou,
- Abstract要約: 事前訓練されたVision Mamba(Vim)モデルは、様々なコンピュータビジョンタスクで例外的な性能を示した。
既存の視覚プロンプト法は、視覚変換器(ViT)ベースのモデルに主に適合している。
本稿では,Vimの高効率微調整のための新しい選択型視覚プロンプティング(SVP)手法を提案する。
- 参考スコア(独自算出の注目度): 35.86547398432339
- License:
- Abstract: Pre-trained Vision Mamba (Vim) models have demonstrated exceptional performance across various computer vision tasks in a computationally efficient manner, attributed to their unique design of selective state space models. To further extend their applicability to diverse downstream vision tasks, Vim models can be adapted using the efficient fine-tuning technique known as visual prompting. However, existing visual prompting methods are predominantly tailored for Vision Transformer (ViT)-based models that leverage global attention, neglecting the distinctive sequential token-wise compression and propagation characteristics of Vim. Specifically, existing prompt tokens prefixed to the sequence are insufficient to effectively activate the input and forget gates across the entire sequence, hindering the extraction and propagation of discriminative information. To address this limitation, we introduce a novel Selective Visual Prompting (SVP) method specifically for the efficient fine-tuning of Vim. To prevent the loss of discriminative information during state space propagation, SVP employs lightweight selective prompters for token-wise prompt generation, ensuring adaptive activation of the update and forget gates within Mamba blocks to promote discriminative information propagation. Moreover, considering that Vim propagates both shared cross-layer information and specific inner-layer information, we further refine SVP with a dual-path structure: Cross-Prompting and Inner-Prompting. Cross-Prompting utilizes shared parameters across layers, while Inner-Prompting employs distinct parameters, promoting the propagation of both shared and specific information, respectively. Extensive experimental results on various large-scale benchmarks demonstrate that our proposed SVP significantly outperforms state-of-the-art methods. Our code is available at https://github.com/zhoujiahuan1991/AAAI2025-SVP.
- Abstract(参考訳): 事前訓練されたビジョン・マンバ(Vim)モデルは、選択状態空間モデルのユニークな設計により、様々なコンピュータビジョンタスクに対して計算的に効率的に例外的な性能を示した。
様々な下流視覚タスクへの適用性をさらに拡張するために、視覚的プロンプトとして知られる効率的な微調整技術を用いて、Vimモデルを適応することができる。
しかし、既存の視覚的プロンプト法は、Vimの特異なシーケンシャルなトークンワイド圧縮と伝播特性を無視し、グローバルな注意を生かしたビジョントランスフォーマー(ViT)ベースのモデルに主に適合している。
具体的には、シークエンスに接頭した既存のプロンプトトークンは、シークエンス全体の入力と忘れゲートを効果的に活性化するのに不十分であり、識別情報の抽出と伝播を妨げる。
この制限に対処するために、Vimの効率的な微調整に特化したSVP(Selective Visual Prompting)手法を提案する。
状態空間伝播時の識別情報の喪失を防止するため、SVPはトークン単位のプロンプト生成に軽量な選択的プロンプトを使用し、更新の適応的なアクティベートを確保し、Mambaブロック内のゲートを忘れ、識別情報のプロンプトを促進する。
さらに、Vimは共有層情報と特定の内部層情報の両方を伝播するので、二重パス構造であるクロスプロンプティングとインナープロンプティングによりSVPをさらに洗練する。
クロスプロンプティングはレイヤ間の共有パラメータを使用し、インナープロンプティングは異なるパラメータを使用し、それぞれ共有情報と特定の情報の伝搬を促進する。
大規模ベンチマークによる大規模な実験結果から,提案したSVPは最先端の手法よりも優れた性能を示した。
私たちのコードはhttps://github.com/zhoujiahuan 1991/AAAI2025-SVPで公開されています。
関連論文リスト
- LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation [41.77434289193232]
視覚プロンプトのための低ランク行列乗算を導入した新しい視覚プロンプト設計法(LoR-VP)を提案する。
LoR-VPは、画像ピクセルの行と列をまたいだ共有およびパッチ固有の情報を可能にする。
実験では、最先端の視覚的プロンプト法と比較して、性能と効率の両面で大きな改善が示されている。
論文 参考訳(メタデータ) (2025-02-02T20:10:48Z) - Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt Learning [29.19130646630545]
MIP(Modality-aware and Instance-aware Visual Prompts)ネットワークについて紹介する。
MIPは、不変情報と特定情報の両方を効果的に利用して識別するように設計されている。
提案するMIPは,ほとんどの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-18T06:39:03Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection [34.20778042463112]
本稿では,新しい視覚的プロンプトチューニング (VPT) 手法である textbfiVPT を提案する。
これは、隣接層からの入力プロンプトトークンのための層間動的接続(CDC)を導入し、タスク関連情報の効果的な共有を可能にする。
これらの基盤の上に構築されたiVPTは、透明な画像トークンを自動的に識別することで、注意力強化(AR)メカニズムを導入している。
論文 参考訳(メタデータ) (2024-04-08T05:23:12Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。