論文の概要: LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation
- arxiv url: http://arxiv.org/abs/2502.00896v2
- Date: Tue, 04 Feb 2025 03:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:34.813079
- Title: LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation
- Title(参考訳): LoR-VP: 効率的な視覚モデル適応のための低ランクビジュアルプロンプト
- Authors: Can Jin, Ying Li, Mingyu Zhao, Shiyu Zhao, Zhenting Wang, Xiaoxiao He, Ligong Han, Tong Che, Dimitris N. Metaxas,
- Abstract要約: 視覚プロンプトのための低ランク行列乗算を導入した新しい視覚プロンプト設計法(LoR-VP)を提案する。
LoR-VPは、画像ピクセルの行と列をまたいだ共有およびパッチ固有の情報を可能にする。
実験では、最先端の視覚的プロンプト法と比較して、性能と効率の両面で大きな改善が示されている。
- 参考スコア(独自算出の注目度): 41.77434289193232
- License:
- Abstract: Visual prompting has gained popularity as a method for adapting pre-trained models to specific tasks, particularly in the realm of parameter-efficient tuning. However, existing visual prompting techniques often pad the prompt parameters around the image, limiting the interaction between the visual prompts and the original image to a small set of patches while neglecting the inductive bias present in shared information across different patches. In this study, we conduct a thorough preliminary investigation to identify and address these limitations. We propose a novel visual prompt design, introducing Low-Rank matrix multiplication for Visual Prompting (LoR-VP), which enables shared and patch-specific information across rows and columns of image pixels. Extensive experiments across seven network architectures and four datasets demonstrate significant improvements in both performance and efficiency compared to state-of-the-art visual prompting methods, achieving up to 6 times faster training times, utilizing 18 times fewer visual prompt parameters, and delivering a 3.1% improvement in performance. The code is available as https://github.com/jincan333/LoR-VP.
- Abstract(参考訳): ビジュアルプロンプトは、特にパラメータ効率のチューニングの領域において、訓練済みのモデルを特定のタスクに適応させる手法として人気を集めている。
しかし、既存の視覚的プロンプト技術は、しばしば画像の周りのプロンプトパラメータをパッドし、異なるパッチにまたがる共有情報に存在する誘導バイアスを無視しながら、視覚的プロンプトと元のイメージとの相互作用を小さなパッチに制限する。
本研究では,これらの限界を特定し,対処するために,徹底的な予備調査を行う。
画像画素の行と列をまたいだ共有およびパッチ固有の情報を可能にする、ビジュアルプロンプト(LoR-VP)のための低ランク行列乗法(Low-Rank matrix multiplication)を導入した新しいビジュアルプロンプト設計を提案する。
7つのネットワークアーキテクチャと4つのデータセットにわたる大規模な実験は、最先端のビジュアルプロンプト手法と比較して、パフォーマンスと効率の両面で大きな改善を示し、トレーニング時間の最大6倍の高速化、ビジュアルプロンプトパラメータの18倍の削減、パフォーマンスの3.1%の改善を実現している。
コードはhttps://github.com/jincan333/LoR-VPとして入手できる。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models [28.983503845298824]
合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。
視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。
本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-03T12:23:33Z) - Explicit Visual Prompting for Universal Foreground Segmentations [55.51869354956533]
我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。
我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。
本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
論文 参考訳(メタデータ) (2023-05-29T11:05:01Z) - Do We Really Need a Large Number of Visual Prompts? [23.85637456240694]
視覚変換器アーキテクチャの微調整性能と自己注意操作に及ぼすプロンプト数の影響を解析する。
本稿では,少数のプロンプトを用いて性能劣化を防止することを目的とした,PC(Prompt Condensation)技術を提案する。
論文 参考訳(メタデータ) (2023-05-26T19:31:57Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - Unleashing the Power of Visual Prompting At the Pixel Level [28.50538386115006]
本研究では,プロンプトと画像の調整戦略が重要であることを示すとともに,適切に縮小された画像にプロンプトを巻き付ける方法が有効であることを示す。
CLIPモデルを用いて、我々のプロンプト手法は、12の一般的な分類データセットの平均精度を82.8%に設定する。
論文 参考訳(メタデータ) (2022-12-20T18:57:06Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。