論文の概要: Multi-Modal One-Shot Federated Ensemble Learning for Medical Data with Vision Large Language Model
- arxiv url: http://arxiv.org/abs/2501.03292v1
- Date: Mon, 06 Jan 2025 08:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:50:27.660802
- Title: Multi-Modal One-Shot Federated Ensemble Learning for Medical Data with Vision Large Language Model
- Title(参考訳): 視覚大言語モデルを用いた医療データのためのマルチモーダルワンショットフェデレーション・アンサンブル学習
- Authors: Naibo Wang, Yuchen Deng, Shichen Fan, Jianwei Yin, See-Kiong Ng,
- Abstract要約: 我々は、革新的なワンショットマルチモーダル・フェデレート・アンサンブル学習フレームワークであるFedMMEを紹介する。
FedMMEは、医用画像からテキストレポートを作成するために、視覚的大言語モデルを活用している。
RSNAデータセットでは、既存のワンショットのフェデレーション学習アプローチを17.5%以上上回っている。
- 参考スコア(独自算出の注目度): 27.299068494473016
- License:
- Abstract: Federated learning (FL) has attracted considerable interest in the medical domain due to its capacity to facilitate collaborative model training while maintaining data privacy. However, conventional FL methods typically necessitate multiple communication rounds, leading to significant communication overhead and delays, especially in environments with limited bandwidth. One-shot federated learning addresses these issues by conducting model training and aggregation in a single communication round, thereby reducing communication costs while preserving privacy. Among these, one-shot federated ensemble learning combines independently trained client models using ensemble techniques such as voting, further boosting performance in non-IID data scenarios. On the other hand, existing machine learning methods in healthcare predominantly use unimodal data (e.g., medical images or textual reports), which restricts their diagnostic accuracy and comprehensiveness. Therefore, the integration of multi-modal data is proposed to address these shortcomings. In this paper, we introduce FedMME, an innovative one-shot multi-modal federated ensemble learning framework that utilizes multi-modal data for medical image analysis. Specifically, FedMME capitalizes on vision large language models to produce textual reports from medical images, employs a BERT model to extract textual features from these reports, and amalgamates these features with visual features to improve diagnostic accuracy. Experimental results show that our method demonstrated superior performance compared to existing one-shot federated learning methods in healthcare scenarios across four datasets with various data distributions. For instance, it surpasses existing one-shot federated learning approaches by more than 17.5% in accuracy on the RSNA dataset when applying a Dirichlet distribution with ($\alpha$ = 0.3).
- Abstract(参考訳): フェデレートラーニング(FL)は、データのプライバシを維持しながら協調的なモデルトレーニングを促進する能力のために、医療分野に多大な関心を集めている。
しかし、従来のFL法は、通常複数の通信ラウンドを必要とするため、特に帯域幅が限られている環境では、通信のオーバーヘッドと遅延が大きくなる。
ワンショットのフェデレーション学習は、単一のコミュニケーションラウンドでモデルトレーニングとアグリゲーションを実施し、プライバシーを維持しながら通信コストを削減することで、これらの問題に対処する。
これらのうち、ワンショットの連合型アンサンブル学習は、投票のようなアンサンブル技術を用いて独立に訓練されたクライアントモデルを組み合わせることで、非IIDデータシナリオのパフォーマンスをさらに向上させる。
一方、医療における既存の機械学習手法では、診断精度と包括性を制限したユニモーダルデータ(医療画像やテキストレポートなど)が主流である。
したがって,これらの問題点に対処するために,マルチモーダルデータの統合を提案する。
本稿では,医療画像解析にマルチモーダルデータを利用する,革新的なワンショット・マルチモーダル・フェデレート・アンサンブル学習フレームワークであるFedMMEを紹介する。
具体的には、医療画像からテキストレポートを生成するための視覚的大言語モデルを活用し、BERTモデルを使用してこれらのレポートからテキストの特徴を抽出し、これらの特徴に視覚的特徴を加えて診断精度を向上させる。
実験の結果,既存の1ショットフェデレーション学習法と比較して,データ分布の異なる4つのデータセットを対象とする医療シナリオにおいて,本手法は優れた性能を示した。
例えば、Dirichletディストリビューションを$\alpha$ = 0.3で適用する場合、既存のワンショットフェデレーション学習アプローチを、RSNAデータセット上で17.5%以上精度で上回る。
関連論文リスト
- FACMIC: Federated Adaptative CLIP Model for Medical Image Classification [12.166024140377337]
本稿では,CLIPモデルを用いた適応型コントラスト言語画像の分類処理について紹介する。
私たちはCLIP用の軽量で効率的な機能アテンションモジュールを採用し、各クライアントのデータに適した機能を選択します。
本稿では,クライアント間のデータ分散の差異を低減するためのドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:24:10Z) - FedMM: Federated Multi-Modal Learning with Modality Heterogeneity in
Computational Pathology [3.802258033231335]
Federated Multi-Modal (FedMM) は、複数の単一モード特徴抽出器を訓練し、その後の分類性能を向上させる学習フレームワークである。
FedMMは、精度とAUCメトリクスの2つのベースラインを特に上回っている。
論文 参考訳(メタデータ) (2024-02-24T16:58:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Collaborative Training of Medical Artificial Intelligence Models with
non-uniform Labels [0.07176066267895696]
強力で堅牢なディープラーニングモデルを構築するには、大規模なマルチパーティデータセットによるトレーニングが必要だ。
このようなデータに対する協調学習のためのフレキシブル・フェデレーション・ラーニング(FFL)を提案する。
不均質なラベル付きデータセットを持つことで、FFLベースのトレーニングがパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2022-11-24T13:48:54Z) - Decentralized Distributed Learning with Privacy-Preserving Data
Synthesis [9.276097219140073]
医療分野では、患者と臨床データの均一性を生かして、多施設共同研究がより一般化可能な発見をもたらすことがしばしばある。
最近のプライバシー規制は、データの共有を妨げ、その結果、診断と予後をサポートする機械学習ベースのソリューションを考案する。
ローカルノードの機能を統合する分散分散手法を提案し、プライバシを維持しながら複数のデータセットをまたいで一般化可能なモデルを提供する。
論文 参考訳(メタデータ) (2022-06-20T23:49:38Z) - Practical Challenges in Differentially-Private Federated Survival
Analysis of Medical Data [57.19441629270029]
本稿では,ニューラルネットワークの本質的特性を活用し,生存分析モデルの訓練過程を関連づける。
小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズはモデルを収束させるのが難しくなります。
DPFed-post は,私的フェデレート学習方式に後処理の段階を追加する。
論文 参考訳(メタデータ) (2022-02-08T10:03:24Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Multi-site fMRI Analysis Using Privacy-preserving Federated Learning and
Domain Adaptation: ABIDE Results [13.615292855384729]
高品質なディープラーニングモデルを訓練するには,大量の患者情報を集める必要がある。
患者データのプライバシを保護する必要があるため、複数の機関から中央データベースを組み立てることは困難である。
フェデレート・ラーニング(Federated Learning)は、エンティティのデータを集中化せずに、人口レベルのモデルをトレーニングすることを可能にする。
論文 参考訳(メタデータ) (2020-01-16T04:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。