論文の概要: FedMMKT:Co-Enhancing a Server Text-to-Image Model and Client Task Models in Multi-Modal Federated Learning
- arxiv url: http://arxiv.org/abs/2510.12254v1
- Date: Tue, 14 Oct 2025 08:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.979818
- Title: FedMMKT:Co-Enhancing a Server Text-to-Image Model and Client Task Models in Multi-Modal Federated Learning
- Title(参考訳): FedMMKT:マルチモーダルフェデレーション学習におけるサーバ間テキスト・画像モデルとクライアントタスクモデルの統合
- Authors: Ningxin He, Yang Liu, Wei Sun, Xiaozhou Ye, Ye Ouyang, Tiegang Gao, Zehui Zhang,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは幅広いアプリケーションでその汎用性を実証している。
特殊なタスクへのT2Iモデルの適応は、プライバシの懸念によるタスク固有のデータの提供によって制限されることが多い。
本稿では,サーバT2Iモデルとクライアントタスク固有のモデルの共同構築を可能にする新しいフレームワークであるFederated Multi-modal Knowledge Transfer (FedMMKT)を紹介する。
- 参考スコア(独自算出の注目度): 10.167551357501337
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text-to-Image (T2I) models have demonstrated their versatility in a wide range of applications. However, adaptation of T2I models to specialized tasks is often limited by the availability of task-specific data due to privacy concerns. On the other hand, harnessing the power of rich multimodal data from modern mobile systems and IoT infrastructures presents a great opportunity. This paper introduces Federated Multi-modal Knowledge Transfer (FedMMKT), a novel framework that enables co-enhancement of a server T2I model and client task-specific models using decentralized multimodal data without compromising data privacy.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは幅広いアプリケーションでその汎用性を実証している。
しかしながら、T2Iモデルの特定のタスクへの適応は、プライバシの懸念によるタスク固有のデータの提供によって制限されることが多い。
一方、現代のモバイルシステムやIoTインフラストラクチャからのリッチなマルチモーダルデータのパワーを活用することは、大きなチャンスになります。
本稿では,分散マルチモーダルデータを用いたサーバT2Iモデルとクライアントタスク固有モデルの協調構築を可能にする新しいフレームワークであるFederated Multi-modal Knowledge Transfer (FedMMKT)を紹介する。
関連論文リスト
- TAP: Two-Stage Adaptive Personalization of Multi-task and Multi-Modal Foundation Models in Federated Learning [37.79391516435725]
フェデレートラーニング(FL)は、必ずしも各クライアントのニーズに適合するとは限らない最終モデルを生成することが示されている。
文献のこのギャップに対処するために,2段階適応パーソナライゼーション(TAP)を提案する。
提案アルゴリズムは,多様なデータセットやタスクに対して,多数のベースラインに対して有効であることを示す。
論文 参考訳(メタデータ) (2025-09-30T17:01:32Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。
既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。
マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-02-17T14:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。