論文の概要: FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.20860v1
- Date: Tue, 29 Apr 2025 15:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.96326
- Title: FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models
- Title(参考訳): FedMVP: ビジョンランゲージモデルのためのマルチモーダルなビジュアルプロンプトチューニング
- Authors: Mainak Singha, Subhankar Roy, Sarthak Mehrotra, Ankit Jha, Moloud Abdar, Biplab Banerjee, Elisa Ricci,
- Abstract要約: テキストプロンプトチューニングは、ローカルクライアントデータに軽量な入力トークン(またはプロンプト)をチューニングし、ネットワークウェイトを凍結させながら、ビジョンランゲージモデル(例えばCLIP)をフェデレート学習に適用する。
FedMVPは、本質的にマルチモーダルな、包括的なコンテキスト情報 -- イメージ条件付き機能とクラスのテキスト属性機能 -- のプロンプトを条件にしている。
動的に生成されたマルチモーダル視覚プロンプトは、CLIPの凍結ビジョンエンコーダに入力され、CLIP類似性損失と一貫性損失の組み合わせでトレーニングされる。
- 参考スコア(独自算出の注目度): 24.47897642582332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual prompt tuning adapts Vision-Language Models (e.g., CLIP) in federated learning by tuning lightweight input tokens (or prompts) on local client data, while keeping network weights frozen. Post training, only the prompts are shared by the clients with the central server for aggregation. However, textual prompt tuning often struggles with overfitting to known concepts and may be overly reliant on memorized text features, limiting its adaptability to unseen concepts. To address this limitation, we propose Federated Multimodal Visual Prompt Tuning (FedMVP) that conditions the prompts on comprehensive contextual information -- image-conditioned features and textual attribute features of a class -- that is multimodal in nature. At the core of FedMVP is a PromptFormer module that synergistically aligns textual and visual features through cross-attention, enabling richer contexual integration. The dynamically generated multimodal visual prompts are then input to the frozen vision encoder of CLIP, and trained with a combination of CLIP similarity loss and a consistency loss. Extensive evaluation on 20 datasets spanning three generalization settings demonstrates that FedMVP not only preserves performance on in-distribution classes and domains, but also displays higher generalizability to unseen classes and domains when compared to state-of-the-art methods. Codes will be released upon acceptance.
- Abstract(参考訳): テキストプロンプトチューニングは、ローカルクライアントデータに軽量な入力トークン(またはプロンプト)をチューニングし、ネットワークの重みを凍結させながら、連合学習におけるビジョンランゲージモデル(例えばCLIP)に適応する。
トレーニング後のプロンプトは、アグリゲーションのための中央サーバとクライアントによって共有される。
しかし、テキスト・プロンプト・チューニングは、既知の概念に過度な適合に苦しむことが多く、記憶されたテキストの特徴に過度に依存し、その適応性は目に見えない概念に制限される。
この制限に対処するため,FedMVP (Federated Multimodal Visual Prompt Tuning) を提案する。
FedMVPの中核にあるPromptFormerモジュールは、テキストと視覚の機能を相互アテンションを通じて相乗的に調整し、よりリッチなコンテント統合を可能にする。
動的に生成されたマルチモーダル視覚プロンプトは、CLIPの凍結ビジョンエンコーダに入力され、CLIP類似性損失と一貫性損失の組み合わせでトレーニングされる。
3つの一般化設定にまたがる20のデータセットに対する広範囲な評価は、FedMVPが分散クラスやドメインのパフォーマンスを保っているだけでなく、最先端のメソッドと比較して、見当たらないクラスやドメインに対して高い一般化性を示すことを示している。
コードは受理後に公開される。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models [7.810284483002312]
フェデレート・プロンプト学習は,CLIP-like Vision-Language Model's (VLM's) によるファシリテート学習による堅牢な表現学習能力により,フェデレーション・プロンプト学習の恩恵を受ける。
現在のフェデレートされたプロンプト学習手法は、通常、従来のFLパラダイムに制限されており、参加するクライアントは通常、サーバから単一のグローバル集約モデルしかダウンロードできない。
適応確率の個人化混合(pFedMoAP)を提案する。これは、エキスパートの混合レンズ(MoE)を通して、迅速な学習プロセスをパーソナライズする新しいFLフレームワークである。
論文 参考訳(メタデータ) (2024-10-14T03:05:12Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。