論文の概要: Towards Robust Multimodal Representation: A Unified Approach with Adaptive Experts and Alignment
- arxiv url: http://arxiv.org/abs/2503.09498v1
- Date: Wed, 12 Mar 2025 16:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:46.962642
- Title: Towards Robust Multimodal Representation: A Unified Approach with Adaptive Experts and Alignment
- Title(参考訳): ロバストなマルチモーダル表現に向けて:適応的エキスパートとアライメントによる統一的アプローチ
- Authors: Nazanin Moradinasab, Saurav Sengupta, Jiebei Liu, Sana Syed, Donald E. Brown,
- Abstract要約: 不完全なマルチモーダルデータを処理するディープラーニングフレームワークであるMoSAReを提案する。
MoSAReは、専門家の選択、横断的な注意、および対照的な学習を統合して、特徴表現と意思決定を改善する。
データが欠落している場合でも、信頼性の高い予測を提供する。
- 参考スコア(独自算出の注目度): 0.8213829427624407
- License:
- Abstract: Healthcare relies on multiple types of data, such as medical images, genetic information, and clinical records, to improve diagnosis and treatment. However, missing data is a common challenge due to privacy restrictions, cost, and technical issues, making many existing multi-modal models unreliable. To address this, we propose a new multi-model model called Mixture of Experts, Symmetric Aligning, and Reconstruction (MoSARe), a deep learning framework that handles incomplete multimodal data while maintaining high accuracy. MoSARe integrates expert selection, cross-modal attention, and contrastive learning to improve feature representation and decision-making. Our results show that MoSARe outperforms existing models in situations when the data is complete. Furthermore, it provides reliable predictions even when some data are missing. This makes it especially useful in real-world healthcare settings, including resource-limited environments. Our code is publicly available at https://github.com/NazaninMn/MoSARe.
- Abstract(参考訳): 医療は診断と治療を改善するために、医療画像、遺伝情報、臨床記録などの複数の種類のデータに依存している。
しかし、プライバシー制限やコスト、技術的な問題などにより、データ不足は一般的な問題であり、既存のマルチモーダルモデルの多くを信頼できないものにしている。
そこで本研究では,不完全なマルチモーダルデータを扱うディープラーニングフレームワークであるMixture of Experts, Symmetric Aligning and Reconstruction (MoSARe)を提案する。
MoSAReは、専門家の選択、横断的な注意、対照的な学習を統合して、特徴表現と意思決定を改善する。
以上の結果から,MoSAReは,データ処理が完了した状況において,既存のモデルよりも優れていることがわかった。
さらに、いくつかのデータが欠落している場合でも、信頼性の高い予測を提供する。
これは、リソース制限のある環境を含む、現実世界の医療環境において特に有用である。
私たちのコードはhttps://github.com/NazaninMn/MoSAReで公開されています。
関連論文リスト
- Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - MedCoDi-M: A Multi-Prompt Foundation Model for Multimodal Medical Data Generation [22.908801443059758]
マルチモーダル医療データ生成モデルであるMedCoDi-Mを提案する。
MIMIC-CXRデータセット上の5つの競合と比較した。
MedCoDi-Mの医療分野における課題に対する有効性について検討した。
論文 参考訳(メタデータ) (2025-01-08T16:53:56Z) - DRIM: Learning Disentangled Representations from Incomplete Multimodal Healthcare Data [0.0]
実生活の医療データは、しばしばマルチモーダルで不完全であり、高度なディープラーニングモデルの必要性を助長する。
データ疎性にもかかわらず、共有表現とユニークな表現をキャプチャする新しい方法であるDRIMを紹介する。
本手法はグリオーマ患者の生存予測タスクにおける最先端のアルゴリズムよりも優れており,モダリティの欠如に対して頑健である。
論文 参考訳(メタデータ) (2024-09-25T16:13:57Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Dynamic Multimodal Information Bottleneck for Multimodality
Classification [26.65073424377933]
本稿では,頑健な融合特徴表現を実現するための動的マルチモーダル情報ボトルネックフレームワークを提案する。
具体的には、情報ボトルネックモジュールは、融合機能におけるタスク関連情報やノイズをフィルタリングするのに役立ちます。
提案手法は最先端の手法を超越し, 大規模ノイズチャネルが存在する場合, 性能を維持できる唯一の手法である。
論文 参考訳(メタデータ) (2023-11-02T08:34:08Z) - Cascaded Multi-Modal Mixing Transformers for Alzheimer's Disease
Classification with Incomplete Data [8.536869574065195]
Multi-Modal Mixing Transformer (3MAT)は、マルチモーダルデータを利用するだけでなく、欠落したデータシナリオも扱う病気分類変換器である。
本稿では、欠落したデータシナリオを扱うために、前例のないモダリティ独立性とロバスト性を確保するための新しいモダリティドロップアウト機構を提案する。
論文 参考訳(メタデータ) (2022-10-01T11:31:02Z) - Practical Challenges in Differentially-Private Federated Survival
Analysis of Medical Data [57.19441629270029]
本稿では,ニューラルネットワークの本質的特性を活用し,生存分析モデルの訓練過程を関連づける。
小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズはモデルを収束させるのが難しくなります。
DPFed-post は,私的フェデレート学習方式に後処理の段階を追加する。
論文 参考訳(メタデータ) (2022-02-08T10:03:24Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - MS-Net: Multi-Site Network for Improving Prostate Segmentation with
Heterogeneous MRI Data [75.73881040581767]
本稿では,ロバスト表現を学習し,前立腺のセグメンテーションを改善するための新しいマルチサイトネットワーク(MS-Net)を提案する。
当社のMS-Netは,すべてのデータセットのパフォーマンスを一貫して改善し,マルチサイト学習における最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-02-09T14:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。