論文の概要: Examining Modality Incongruity in Multimodal Federated Learning for
Medical Vision and Language-based Disease Detection
- arxiv url: http://arxiv.org/abs/2402.05294v1
- Date: Wed, 7 Feb 2024 22:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:10:32.314474
- Title: Examining Modality Incongruity in Multimodal Federated Learning for
Medical Vision and Language-based Disease Detection
- Title(参考訳): 医学的ビジョンと言語に基づく疾患検出のためのマルチモーダルフェデレーション学習におけるモダリティ不合理性の検討
- Authors: Pramit Saha, Divyanshu Mishra, Felix Wagner, Konstantinos Kamnitsas,
J. Alison Noble
- Abstract要約: 異なるクライアントにおけるモダリティの欠如の影響は、モダリティの不整合(modality incongruity)とも呼ばれるが、非常に見過ごされている。
本稿では、初めて、モダリティの不整合の影響を解析し、参加するクライアント間のデータ不均一性との関係を明らかにする。
- 参考スコア(独自算出の注目度): 7.515840210206994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Federated Learning (MMFL) utilizes multiple modalities in each
client to build a more powerful Federated Learning (FL) model than its unimodal
counterpart. However, the impact of missing modality in different clients, also
called modality incongruity, has been greatly overlooked. This paper, for the
first time, analyses the impact of modality incongruity and reveals its
connection with data heterogeneity across participating clients. We
particularly inspect whether incongruent MMFL with unimodal and multimodal
clients is more beneficial than unimodal FL. Furthermore, we examine three
potential routes of addressing this issue. Firstly, we study the effectiveness
of various self-attention mechanisms towards incongruity-agnostic information
fusion in MMFL. Secondly, we introduce a modality imputation network (MIN)
pre-trained in a multimodal client for modality translation in unimodal clients
and investigate its potential towards mitigating the missing modality problem.
Thirdly, we assess the capability of client-level and server-level
regularization techniques towards mitigating modality incongruity effects.
Experiments are conducted under several MMFL settings on two publicly available
real-world datasets, MIMIC-CXR and Open-I, with Chest X-Ray and radiology
reports.
- Abstract(参考訳): マルチモーダルフェデレーション学習(mmfl)は、各クライアントの複数のモダリティを利用して、ユニモーダル学習よりも強力なフェデレーション学習(fl)モデルを構築する。
しかし、異なるクライアントにおけるモダリティの欠如による影響は、モダリティ・インフォニティ(modality incongruity)とも呼ばれ、見過ごされている。
本稿では,モダリティ不均一性の影響を初めて分析し,参加者間のデータ不均一性との関連を明らかにする。
特に,不整合MMFLと不整合MMFLが不整合FLよりも有益かどうかを検討する。
さらに,この問題に対処する3つの経路について検討する。
まず,MMFLにおける情報融合に対する様々な自己注意機構の有効性を検討する。
第2に,マルチモーダルクライアントで事前学習したモダリティ変換のためのモダリティインプテーションネットワーク(min)を導入し,モダリティ問題を解消する可能性について検討する。
第3に,モダリティ・インフォメーション効果の軽減に向けたクライアントレベルおよびサーバレベルのレギュライゼーション手法の能力を評価する。
実験は、MMIC-CXRとOpen-Iの2つの公開されている実世界のデータセット上で、Chest X-Rayと放射線学レポートを用いてMMFL設定で実施されている。
関連論文リスト
- The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - FedMM: Federated Multi-Modal Learning with Modality Heterogeneity in
Computational Pathology [3.802258033231335]
Federated Multi-Modal (FedMM) は、複数の単一モード特徴抽出器を訓練し、その後の分類性能を向上させる学習フレームワークである。
FedMMは、精度とAUCメトリクスの2つのベースラインを特に上回っている。
論文 参考訳(メタデータ) (2024-02-24T16:58:42Z) - Communication-Efficient Multimodal Federated Learning: Joint Modality
and Client Selection [14.261582708240407]
FL(Multimodal Federated Learning)は、FL設定におけるモデルトレーニングを強化することを目的としている。
マルチモーダルFLの鍵となる課題は、特に異種ネットワーク設定において、未適応のままである。
マルチモーダル設定における上記の課題に対処できる新しいFL手法であるmmFedMCを提案する。
論文 参考訳(メタデータ) (2024-01-30T02:16:19Z) - Cross-Modal Prototype based Multimodal Federated Learning under Severely
Missing Modality [31.727012729846333]
MFCPL (Multimodal Federated Cross Prototype Learning) は、MFLにおいて、高度に欠落したモダリティの下での新たなアプローチである。
MFCPLは、モダリティ共有レベルにおいて、クロスモーダル正規化とクロスモーダルコントラスト機構を備えたモダリティ固有レベルと共に多様なモダリティ知識を提供する。
提案手法では,モーダリティに特有な特徴の正規化を実現するために,クロスモーダルアライメントを導入し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2024-01-25T02:25:23Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。