論文の概要: FedMVP: Federated Multimodal Visual Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.20860v2
- Date: Tue, 02 Sep 2025 12:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 19:31:56.283292
- Title: FedMVP: Federated Multimodal Visual Prompt Tuning for Vision-Language Models
- Title(参考訳): FedMVP: ビジョンランゲージモデルのためのマルチモーダルなビジュアルプロンプトチューニング
- Authors: Mainak Singha, Subhankar Roy, Sarthak Mehrotra, Ankit Jha, Moloud Abdar, Biplab Banerjee, Elisa Ricci,
- Abstract要約: 連合学習において、テキストプロンプトチューニングは、ローカルクライアントデータに軽量な入力トークン(またはプロンプト)をチューニングすることによって、ビジョンランゲージモデル(例えばCLIP)に適応する。
マルチモーダルなコンテキスト情報にプロンプトを条件付けるマルチモーダルなビジュアルプロンプトチューニング(FedMVP)を提案する。
- 参考スコア(独自算出の注目度): 40.150885474460026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In federated learning, textual prompt tuning adapts Vision-Language Models (e.g., CLIP) by tuning lightweight input tokens (or prompts) on local client data, while keeping network weights frozen. After training, only the prompts are shared by the clients with the central server for aggregation. However, textual prompt tuning suffers from overfitting to known concepts, limiting its generalizability to unseen concepts. To address this limitation, we propose Multimodal Visual Prompt Tuning (FedMVP) that conditions the prompts on multimodal contextual information - derived from the input image and textual attribute features of a class. At the core of FedMVP is a PromptFormer module that synergistically aligns textual and visual features through a cross-attention mechanism. The dynamically generated multimodal visual prompts are then input to the frozen vision encoder of CLIP, and trained with a combination of CLIP similarity loss and a consistency loss. Extensive evaluation on 20 datasets, spanning three generalization settings, demonstrates that FedMVP not only preserves performance on in-distribution classes and domains, but also displays higher generalizability to unseen classes and domains, surpassing state-of-the-art methods by a notable margin of +1.57% - 2.26%. Code is available at https://github.com/mainaksingha01/FedMVP.
- Abstract(参考訳): 連合学習では、テキストプロンプトチューニングは、ローカルクライアントデータに軽量な入力トークン(またはプロンプト)をチューニングし、ネットワークの重みを凍結させながら、ビジョンランゲージモデル(例えばCLIP)に適応する。
トレーニング後、プロンプトのみをクライアントと共有して集約する。
しかし、テキスト・プロンプト・チューニングは既知の概念に過度に適合し、その一般化性は目に見えない概念に制限される。
この制限に対処するため、クラス内の入力画像とテキスト属性の特徴から、マルチモーダルなコンテキスト情報にプロンプトを条件付けるマルチモーダルなビジュアルプロンプトチューニング(FedMVP)を提案する。
FedMVPの中核はPromptFormerモジュールで、クロスアテンション機構を通じてテキストと視覚の機能を相乗的に調整する。
動的に生成されたマルチモーダル視覚プロンプトは、CLIPの凍結ビジョンエンコーダに入力され、CLIP類似性損失と一貫性損失の組み合わせでトレーニングされる。
3つの一般化設定にまたがる20のデータセットに対する広範囲な評価は、FedMVPが分散クラスやドメインのパフォーマンスを保っているだけでなく、見当たらないクラスやドメインに対して高い一般化性を示し、最先端のメソッドを+1.57%から2.26%という顕著なマージンで上回っていることを示している。
コードはhttps://github.com/mainaksingha01/FedMVPで入手できる。
関連論文リスト
- SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-06-26T05:28:57Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models [7.810284483002312]
フェデレート・プロンプト学習は,CLIP-like Vision-Language Model's (VLM's) によるファシリテート学習による堅牢な表現学習能力により,フェデレーション・プロンプト学習の恩恵を受ける。
現在のフェデレートされたプロンプト学習手法は、通常、従来のFLパラダイムに制限されており、参加するクライアントは通常、サーバから単一のグローバル集約モデルしかダウンロードできない。
適応確率の個人化混合(pFedMoAP)を提案する。これは、エキスパートの混合レンズ(MoE)を通して、迅速な学習プロセスをパーソナライズする新しいFLフレームワークである。
論文 参考訳(メタデータ) (2024-10-14T03:05:12Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Concept-Guided Prompt Learning for Generalization in Vision-Language
Models [33.361744437967126]
視覚言語モデルのための概念ガイド型プロンプト学習を提案する。
Contrastive Language-Image Pretrainingの知識を活用して、ビジュアルコンセプトキャッシュを作成します。
テキスト特徴を洗練させるために,多段階の視覚特徴をテキスト特徴に変換するプロジェクタを開発する。
論文 参考訳(メタデータ) (2024-01-15T04:04:47Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。