論文の概要: FedMPT: Federated Multi-label Prompt Tuning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.28347v1
- Date: Wed, 27 May 2026 11:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.016299
- Title: FedMPT: Federated Multi-label Prompt Tuning of Vision-Language Models
- Title(参考訳): FedMPT:ビジョンランゲージモデルの多ラベルプロンプトチューニング
- Authors: Xucong Wang, Pengkun Wang, Zhe Zhao, Liheng Yu, Shuang Wang, Yang Wang,
- Abstract要約: VLM(Vision-Language Models)に基づくマルチラベル認識(MLR)は、トレーニング済みの知識を活用して複雑な認識シナリオに適応することを目的としている。
フェデレートされた学習を必要とする現実的な分散アプリケーションでは、プライベートデータとヘテロジニアスデータを持つ各クライアントにVLMを適用すると、モデルが急激なラベル相関に過度に適合する可能性がある。
我々は、フェデレーションMLR用に設計された最初の方法であるFedMPTを提案する。
- 参考スコア(独自算出の注目度): 18.146491036053124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Label Recognition (MLR) based on Vision-Language Models (VLMs) aims to leverage their pre-trained knowledge to better adapt complex recognition scenarios, thereby enhancing model robustness. However, for realistic decentralized applications requiring federated learning, adapting VLMs to each client that possesses private and heterogeneous data can cause the model to overfit spurious label correlations, consequently triggering irrelevant categories when encountering new samples. To tackle this problem, we reconsider the federated learning for MLR with a causal model, in which we adopt a front-door adjustment and decouple the MLR modeling process by intermediate variables that magnify the oracle label co-occurrence. Guided by our analysis, we propose our FedMPT, the first method specifically designed for federated MLR. The core idea of FedMPT is to leverage generalizable conditions to steer federated MLR to mitigate erroneous label activations. To achieve this, FedMPT introduces an Large Language Model (LLM)-driven pipeline to decipher the underlying conditions that govern label dependencies. Furthermore, we introduce an optimal transport between the condition-enriched prompts and the image patches to uncover multiple region-level semantics. Finally, we generate synergistic predictions from different conditions with a crafted gating mechanism. Experiments on multiple benchmark datasets show that our proposed approach achieves competitive results and outperforms SOTA methods under varied settings.
- Abstract(参考訳): VLM(Vision-Language Models)に基づくマルチラベル認識(MLR)は、訓練済みの知識を活用して複雑な認識シナリオを適応させ、モデルの堅牢性を高めることを目的としている。
しかしながら、フェデレート学習を必要とする現実的な分散アプリケーションでは、プライベートデータとヘテロジニアスデータを持つ各クライアントにVLMを適用することで、新たなサンプルに遭遇する際に無関係なカテゴリが引き起こされる。
この問題に対処するため,本研究では,MLR のフェデレーション学習を因果モデルで再考し,前庭調整を採用し,オラクルラベルの共起を増大させる中間変数を用いて MLR モデリングプロセスを分離する。
本報告では,フェデレーションMLRに特化して設計されたフェデレーション手法であるフェデレーションMPTを提案する。
FedMPTの中核となる考え方は、一般化可能な条件を利用して、フェデレートされたMLRを操り、誤ラベルのアクティベーションを軽減することである。
これを実現するため、FedMPTはラベル依存を管理する基本的な条件を解読するLarge Language Model(LLM)駆動のパイプラインを導入した。
さらに,条件付きプロンプトと画像パッチの間に最適なトランスポートを導入し,複数の領域レベルのセマンティクスを明らかにする。
最後に,試作したゲーティング機構を用いて,異なる条件から相乗的予測を生成する。
複数のベンチマークデータセットを用いた実験により,提案手法は競争結果が得られ,異なる条件下でのSOTA法よりも優れることが示された。
関連論文リスト
- Multi-Level Contextual Token Relation Modeling for Machine-Generated Text Detection [105.1403233464793]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調する。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、複雑なモデルベース法よりも実用的であることが多い。
MGT検出のための多レベルコンテキストトークン関係モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-15T15:55:58Z) - Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models [63.70401095689976]
VLM(Vision-Language Models)は、医療や金融といったプライバシに敏感な分野において大きな可能性を秘めている。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを組み合わせた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化とクロスクライアント適応性において、フェデレートされたアライメントベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-05T07:02:50Z) - A Step Toward Federated Pretraining of Multimodal Large Language Models [87.64508862413565]
Federated Learningは、分散リソースをアンロックするための有望なソリューションを提供する。
Fed-MAは、視覚エンコーダとLLMを凍結し、クロスモーダルプロジェクタを協調的にトレーニングする軽量な事前トレーニングパラダイムである。
MLLM事前学習のための先駆的フレームワークであるFed-CMPを提案する。
論文 参考訳(メタデータ) (2026-03-25T08:16:23Z) - Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。
MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。
我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-03-05T06:01:26Z) - Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models [63.70401095689976]
パラメータを好みに置き換えることは、よりスケーラブルでプライバシに保護される未来を表している、と私たちは主張する。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを用いた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化、堅牢性、およびクロスクライアント適応性において、連邦化されたアライメントベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-31T03:11:51Z) - Reflective Agreement: Combining Self-Mixture of Agents with a Sequence Tagger for Robust Event Extraction [9.746352647419345]
イベント抽出は、構造化されていないテキストからイベントに関する構造化情報を自動的に識別し、抽出する。
本稿では,エージェントの自己混合と識別配列タグを併用したハイブリッド手法を提案する。
実験では、3つのベンチマークデータセットで既存の最先端イベント抽出手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-08-26T18:36:23Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts [4.412721048192925]
我々は、データ不均一性に対処するための効率的パーソナライズされたFederated LearningフレームワークであるFedMoEを紹介する。
FedMoEは2つの微調整段階から構成されており、第1段階では、観測されたアクティベーションパターンに基づいて探索を行うことで問題を単純化する。
第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、サーバ集約のために返される。
論文 参考訳(メタデータ) (2024-08-21T03:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。