Fugu-MT 論文翻訳(概要): Towards Multi-modal Transformers in Federated Learning

論文の概要: Towards Multi-modal Transformers in Federated Learning

arxiv url: http://arxiv.org/abs/2404.12467v2
Date: Tue, 16 Jul 2024 21:19:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 22:07:40.932374
Title: Towards Multi-modal Transformers in Federated Learning
Title（参考訳）: フェデレートラーニングにおけるマルチモーダルトランスフォーマー
Authors: Guangyu Sun, Matias Mendieta, Aritra Dutta, Xin Li, Chen Chen,
Abstract要約: 本稿では,視覚言語領域におけるMFL(Transfer Multi-modal Federated Learning)のシナリオについて検討する。我々は,クライアント間の非モダリティと相互モダリティのギャップに対処することによって,FedCola(Federated modality complementary and collaboration)と呼ばれる新しいフレームワークを導入する。
参考スコア（独自算出の注目度）: 10.823839967671454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal transformers mark significant progress in different domains, but siloed high-quality data hinders their further improvement. To remedy this, federated learning (FL) has emerged as a promising privacy-preserving paradigm for training models without direct access to the raw data held by different clients. Despite its potential, a considerable research direction regarding the unpaired uni-modal clients and the transformer architecture in FL remains unexplored. To fill this gap, this paper explores a transfer multi-modal federated learning (MFL) scenario within the vision-language domain, where clients possess data of various modalities distributed across different datasets. We systematically evaluate the performance of existing methods when a transformer architecture is utilized and introduce a novel framework called Federated modality complementary and collaboration (FedCola) by addressing the in-modality and cross-modality gaps among clients. Through extensive experiments across various FL settings, FedCola demonstrates superior performance over previous approaches, offering new perspectives on future federated training of multi-modal transformers.
Abstract（参考訳）: マルチモーダルトランスは、異なる領域で顕著な進歩を示すが、サイロ化された高品質なデータは、さらなる改善を妨げる。これを解決するために、フェデレートラーニング(FL)は、異なるクライアントが保持する生データに直接アクセスすることなく、モデルをトレーニングする上で有望なプライバシー保護パラダイムとして登場した。その可能性にもかかわらず、未実装のユニモーダルクライアントとFLのトランスフォーマーアーキテクチャに関するかなりの研究の方向性は未解明のままである。このギャップを埋めるために,クライアントが異なるデータセットに分散した様々なモダリティのデータを保有する視覚言語領域内でのマルチモーダル・フェデレート・ラーニング(MFL)シナリオについて検討する。我々は,トランスフォーマーアーキテクチャを利用する場合の既存手法の性能を体系的に評価し,クライアント間の非モダリティと相互モダリティのギャップに対処することで,FedCola(Federated modality complementary and collaboration)と呼ばれる新しいフレームワークを導入する。さまざまなFL設定にわたる広範な実験を通じて、FedColaは従来のアプローチよりも優れたパフォーマンスを示し、将来のマルチモーダルトランスのフェデレーショントレーニングに関する新たな視点を提供する。

関連論文リスト

FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文参考訳（メタデータ） (2024-11-22T04:09:23Z)
Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。 FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-06-16T19:18:06Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
FLASH: Federated Learning Across Simultaneous Heterogeneities [54.80435317208111]
FLASH (Federated Learning Across Simultaneous Heterogeneities) は軽量かつ柔軟なクライアント選択アルゴリズムである。ヘテロジニティの幅広い情報源の下で、最先端のFLフレームワークよりも優れています。最先端のベースラインよりも大幅に、一貫性のある改善を実現している。
論文参考訳（メタデータ） (2024-02-13T20:04:39Z)
3FM: Multi-modal Meta-learning for Federated Tasks [2.117841684082203]
マルチモーダルなフェデレーションタスクに特化して設計されたメタラーニングフレームワークを提案する。当社のアプローチは,新たなモダリティに曝露した場合に,フェデレーションモデルによる堅牢な適応を可能にする必要性に起因している。提案アルゴリズムは,欠落したモダリティシナリオのサブセットにおいて,ベースラインよりも優れた性能を実現することを示す。
論文参考訳（メタデータ） (2023-12-15T20:03:24Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning [37.96957782129352]
我々はFederated Dual-Aadapter Teacher(Fed DAT)と呼ばれる異種マルチモーダル基礎モデルに適した微調整フレームワークを提案する。 Fed DATは、クライアントのローカル更新を規則化し、MKD(Mutual Knowledge Distillation)を効率的な知識伝達に適用することで、データの均一性に対処する。その有効性を示すために、異なる種類のデータ不均一性を持つ4つの多モードFLベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2023-08-21T21:57:01Z)
Model-Contrastive Federated Domain Adaptation [3.9435648520559177]
フェデレートされたドメイン適応(FDA)は、ソースクライアント(ドメイン)から関連するが異なるターゲットクライアントに知識を協調的に転送することを目的としています。我々は、bfコントラスト学習と視覚変換器(ViT)に基づくbfフェデレーションbfドメインbf適応に対処することを目的とした、FDACというモデルベース手法を提案する。我々の知る限りでは、FDACはViTの潜在アーキテクチャをフェデレートされた環境下で操作することで、転送可能な表現を学習する最初の試みである。
論文参考訳（メタデータ） (2023-05-07T23:48:03Z)
Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文参考訳（メタデータ） (2023-03-27T07:07:33Z)
FedDM: Iterative Distribution Matching for Communication-Efficient Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文参考訳（メタデータ） (2022-07-20T04:55:18Z)
Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文参考訳（メタデータ） (2021-06-10T21:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。