Fugu-MT 論文翻訳(概要): Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation

論文の概要: Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation

arxiv url: http://arxiv.org/abs/2303.15486v1
Date: Mon, 27 Mar 2023 07:07:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-29 17:45:13.828075
Title: Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning with Hierarchical Aggregation
Title（参考訳）: 単モーダルトレーニングとマルチモーダル予測:階層的集約によるクロスモーダル・フェデレーション学習
Authors: Rongyu Zhang, Xiaowei Chi, Guiliang Liu, Wenyi Zhang, Yuan Du, Fangxin Wang
Abstract要約: HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
参考スコア（独自算出の注目度）: 16.308470947384134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal learning has seen great success mining data features from multiple modalities with remarkable model performance improvement. Meanwhile, federated learning (FL) addresses the data sharing problem, enabling privacy-preserved collaborative training to provide sufficient precious data. Great potential, therefore, arises with the confluence of them, known as multimodal federated learning. However, limitation lies in the predominant approaches as they often assume that each local dataset records samples from all modalities. In this paper, we aim to bridge this gap by proposing an Unimodal Training - Multimodal Prediction (UTMP) framework under the context of multimodal federated learning. We design HA-Fedformer, a novel transformer-based model that empowers unimodal training with only a unimodal dataset at the client and multimodal testing by aggregating multiple clients' knowledge for better accuracy. The key advantages are twofold. Firstly, to alleviate the impact of data non-IID, we develop an uncertainty-aware aggregation method for the local encoders with layer-wise Markov Chain Monte Carlo sampling. Secondly, to overcome the challenge of unaligned language sequence, we implement a cross-modal decoder aggregation to capture the hidden signal correlation between decoders trained by data from different modalities. Our experiments on popular sentiment analysis benchmarks, CMU-MOSI and CMU-MOSEI, demonstrate that HA-Fedformer significantly outperforms state-of-the-art multimodal models under the UTMP federated learning frameworks, with 15%-20% improvement on most attributes.
Abstract（参考訳）: マルチモーダル学習は、優れたモデル性能向上を伴う複数のモーダルからデータ特徴をマイニングすることに成功した。一方、フェデレーション・ラーニング(fl)はデータ共有の問題に対処し、プライバシーを保った共同トレーニングによって十分な貴重なデータを提供できる。したがって、大きなポテンシャルは、マルチモーダル連合学習として知られるそれらの合流によって生じる。しかしながら、各ローカルデータセットがすべてのモダリティからサンプルを記録すると仮定することが多いため、制限は支配的なアプローチにある。本稿では,一様学習-多様予測(UTMP)フレームワークを多様学習の文脈下で提案することで,このギャップを埋めることを目的とする。 HA-Fedformerというトランスフォーマーベースの新しいモデルを設計し、クライアントでの非モーダルデータセットのみによる一元学習と、複数のクライアントの知識をより正確に集約してマルチモーダルテストを実現する。主な利点は2つある。まず,非IIDデータの影響を軽減するため,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション手法を開発した。第二に、不整合言語列の課題を克服するため、異なるモダリティのデータから訓練されたデコーダ間の隠れ信号相関を捉えるために、クロスモーダルデコーダアグリゲーションを実装した。一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験では、HA-FedformerはUTMPフェデレーション学習フレームワークの下で最先端のマルチモーダルモデルよりも優れており、ほとんどの属性に対して15%-20%改善されている。

関連論文リスト

Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。 FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-06-16T19:18:06Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文参考訳（メタデータ） (2024-03-11T15:48:43Z)
FedMM: Federated Multi-Modal Learning with Modality Heterogeneity in Computational Pathology [3.802258033231335]
Federated Multi-Modal (FedMM) は、複数の単一モード特徴抽出器を訓練し、その後の分類性能を向上させる学習フレームワークである。 FedMMは、精度とAUCメトリクスの2つのベースラインを特に上回っている。
論文参考訳（メタデータ） (2024-02-24T16:58:42Z)
Cross-Modal Prototype based Multimodal Federated Learning under Severely Missing Modality [31.727012729846333]
MFCPL (Multimodal Federated Cross Prototype Learning) は、MFLにおいて、高度に欠落したモダリティの下での新たなアプローチである。 MFCPLは、モダリティ共有レベルにおいて、クロスモーダル正規化とクロスモーダルコントラスト機構を備えたモダリティ固有レベルと共に多様なモダリティ知識を提供する。提案手法では,モーダリティに特有な特徴の正規化を実現するために,クロスモーダルアライメントを導入し,全体的な性能を向上させる。
論文参考訳（メタデータ） (2024-01-25T02:25:23Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文参考訳（メタデータ） (2023-02-17T14:17:44Z)
FedDM: Iterative Distribution Matching for Communication-Efficient Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文参考訳（メタデータ） (2022-07-20T04:55:18Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。