論文の概要: MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation
- arxiv url: http://arxiv.org/abs/2602.21397v1
- Date: Tue, 24 Feb 2026 22:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.621305
- Title: MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation
- Title(参考訳): MMLoP:高能率ビジョンランゲージ適応のためのマルチモード低ランクプロンプト
- Authors: Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh, Ramtin Pedarsani,
- Abstract要約: textbfMMLoP (textbfMulti-textbfModal textbfLow-Rank textbfPrompting) を提案する。
- 参考スコア(独自算出の注目度): 12.481603155570037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning has become a dominant paradigm for adapting vision-language models (VLMs) such as CLIP to downstream tasks without modifying pretrained weights. While extending prompts to both vision and text encoders across multiple transformer layers significantly boosts performance, it dramatically increases the number of trainable parameters, with state-of-the-art methods requiring millions of parameters and abandoning the parameter efficiency that makes prompt tuning attractive. In this work, we propose \textbf{MMLoP} (\textbf{M}ulti-\textbf{M}odal \textbf{Lo}w-Rank \textbf{P}rompting), a framework that achieves deep multi-modal prompting with only \textbf{11.5K trainable parameters}, comparable to early text-only methods like CoOp. MMLoP parameterizes vision and text prompts at each transformer layer through a low-rank factorization, which serves as an implicit regularizer against overfitting on few-shot training data. To further close the accuracy gap with state-of-the-art methods, we introduce three complementary components: a self-regulating consistency loss that anchors prompted representations to frozen zero-shot CLIP features at both the feature and logit levels, a uniform drift correction that removes the global embedding shift induced by prompt tuning to preserve class-discriminative structure, and a shared up-projection that couples vision and text prompts through a common low-rank factor to enforce cross-modal alignment. Extensive experiments across three benchmarks and 11 diverse datasets demonstrate that MMLoP achieves a highly favorable accuracy-efficiency tradeoff, outperforming the majority of existing methods including those with orders of magnitude more parameters, while achieving a harmonic mean of 79.70\% on base-to-novel generalization.
- Abstract(参考訳): プロンプト学習は、CLIPのような視覚言語モデル(VLM)を事前訓練された重みを変更することなく下流のタスクに適応するための支配的なパラダイムとなっている。
複数のトランスフォーマー層にまたがる視覚とテキストエンコーダの両方にプロンプトを拡張することで、パフォーマンスが大幅に向上する一方で、数百万のパラメータを必要とする最先端の手法や、プロンプトチューニングを魅力的なものにするパラメータ効率の放棄など、トレーニング可能なパラメータの数が劇的に向上する。
本研究では、CoOpのような初期テキスト専用手法に匹敵する、深いマルチモーダルプロンプトを実現するフレームワークである \textbf{MMLoP} (\textbf{M}ulti-\textbf{M}odal \textbf{Lo}w-Rank \textbf{P}rompting) を提案する。
MMLoPはローランク因数分解によって各トランスファー層における視覚とテキストのプロンプトをパラメータ化し、少数ショットのトレーニングデータに対する過度な適合に対する暗黙の正則化として機能する。
現状の手法との精度ギャップをさらに埋めるために, アンカーがフリーズゼロショットCLIP特徴の表現を特徴量とロジットレベルの両方で引き起こす自己制御整合性損失, クラス識別構造を保存するために, 即時チューニングによって誘導されるグローバルな埋め込みシフトを除去する均一なドリフト補正, 共通低ランク因子を介して視覚とテキストを結合させ, クロスモーダルアライメントを強制する共有アッププロジェクションの3つの相補的要素を導入する。
3つのベンチマークと11の多様なデータセットにわたる大規模な実験により、MMLoPは精度と効率のトレードオフを極めて良好に達成し、多くのパラメータを含む既存の手法よりも優れ、ベース・ツー・ノーベルの一般化において79.70\%の高調波平均を達成した。
関連論文リスト
- High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - ACCEPT: Adaptive Codebook for Composite and Efficient Prompt Tuning [26.43363174779337]
複合・効率的なプロンプトチューニングのための適応型コードブック(ACCEPT)を提案する。
本手法では,すべてのソフトプロンプトが,学習可能なコードブックベクトルの集合を各部分空間で共有できる,製品量子化(PQ)の概念について述べる。
言語モデルのパラメータのわずか0.3%をチューニングすることで、17の多様な自然言語タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-10T07:48:53Z) - Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection [2.1155908599769764]
パラメータ効率の良いオープン語彙オブジェクト検出のための軽量なモジュラーフレームワークUniProj-Detを提案する。
UniProj-Detは事前訓練されたバックボーンを凍結し、学習可能なモダリティトークンを備えたユニバーサル・プロジェクション・モジュールを導入し、最小限のコストで視覚-言語適応を可能にする。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - Infusing Hierarchical Guidance into Prompt Tuning: A Parameter-Efficient
Framework for Multi-level Implicit Discourse Relation Recognition [16.647413058592125]
マルチレベル暗黙的談話関係認識(MIDRR)は,議論間の階層的談話関係の同定を目的とする。
本稿では,プロンプトベースを提案する。
上記の問題を解決するための多レベルIDRR(PEMI)フレームワーク。
論文 参考訳(メタデータ) (2024-02-23T03:53:39Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。