論文の概要: Multimodal Audio-based Disease Prediction with Transformer-based Hierarchical Fusion Network
- arxiv url: http://arxiv.org/abs/2410.09289v2
- Date: Sat, 14 Dec 2024 19:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:43.842444
- Title: Multimodal Audio-based Disease Prediction with Transformer-based Hierarchical Fusion Network
- Title(参考訳): Transformer-based Hierarchical Fusion Network を用いたマルチモーダルオーディオによる疾患予測
- Authors: Jinjin Cai, Ruiqi Wang, Dezhong Zhao, Ziqin Yuan, Victoria McKenna, Aaron Friedman, Rachel Foot, Susan Storey, Ryan Boente, Sudip Vhaduri, Byung-Cheol Min,
- Abstract要約: マルチモーダル融合は診断性能の向上に有効であることが証明されている。
汎用マルチモーダルオーディオベースの病気予測のためのトランスフォーマーに基づく階層型融合ネットワークを提案する。
当モデルでは, 新型コロナウイルス, パーキンソン病, 病理疾患の3つの疾患の予測において, 最先端の成績が得られた。
- 参考スコア(独自算出の注目度): 6.175036031779841
- License:
- Abstract: Audio-based disease prediction is emerging as a promising supplement to traditional medical diagnosis methods, facilitating early, convenient, and non-invasive disease detection and prevention. Multimodal fusion, which integrates features from various domains within or across bio-acoustic modalities, has proven effective in enhancing diagnostic performance. However, most existing methods in the field employ unilateral fusion strategies that focus solely on either intra-modal or inter-modal fusion. This approach limits the full exploitation of the complementary nature of diverse acoustic feature domains and bio-acoustic modalities. Additionally, the inadequate and isolated exploration of latent dependencies within modality-specific and modality-shared spaces curtails their capacity to manage the inherent heterogeneity in multimodal data. To fill these gaps, we propose a transformer-based hierarchical fusion network designed for general multimodal audio-based disease prediction. Specifically, we seamlessly integrate intra-modal and inter-modal fusion in a hierarchical manner and proficiently encode the necessary intra-modal and inter-modal complementary correlations, respectively. Comprehensive experiments demonstrate that our model achieves state-of-the-art performance in predicting three diseases: COVID-19, Parkinson's disease, and pathological dysarthria, showcasing its promising potential in a broad context of audio-based disease prediction tasks. Additionally, extensive ablation studies and qualitative analyses highlight the significant benefits of each main component within our model.
- Abstract(参考訳): オーディオベースの疾患予測は、早期、便利な、非侵襲的な疾患の検出と予防を容易にする、従来の診断方法の有望なサプリメントとして現れている。
生体音響モダリティ内の様々な領域の機能を統合したマルチモーダル融合は,診断性能の向上に有効であることが証明された。
しかし、この分野の既存の手法のほとんどは、モーダル内またはモーダル間融合にのみ焦点をあてる一方的な融合戦略を採用している。
このアプローチは、様々な音響特徴領域と生体音響モダリティの相補的な性質のフル活用を制限する。
さらに、モダリティ特化空間とモダリティ共有空間における潜伏依存性の不十分かつ孤立的な探索は、マルチモーダルデータにおける固有の不均一性を管理する能力を増大させる。
これらのギャップを埋めるために,一般的なマルチモーダルオーディオベースの疾患予測のために設計されたトランスフォーマーベースの階層型融合ネットワークを提案する。
具体的には,モーダル内核融合とモーダル間核融合を階層的にシームレスに統合し,必要なモーダル内核融合とモーダル間相補的相関を適切に符号化する。
包括的実験により、我々のモデルは、COVID-19、パーキンソン病、病理疾患の3つの疾患の予測において最先端のパフォーマンスを達成し、オーディオベースの疾患予測タスクの幅広い文脈において、その有望な可能性を示す。
さらに、広範囲にわたるアブレーション研究と定性的分析は、我々のモデルにおける各主要コンポーネントの有意義な利点を浮き彫りにしている。
関連論文リスト
- Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Multi-modal Cross-domain Self-supervised Pre-training for fMRI and EEG Fusion [3.8153469790341084]
ドメイン間でのマルチモーダル情報の相乗化に自己教師付き学習を活用する新しい手法を提案する。
提案手法を利用した大規模事前学習データセットと事前学習MCSPモデルを構築した。
本研究は,fMRIと脳波の融合の著しい進展に寄与し,クロスドメイン機能の統合を図っている。
論文 参考訳(メタデータ) (2024-09-27T20:25:17Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Joint Self-Supervised and Supervised Contrastive Learning for Multimodal
MRI Data: Towards Predicting Abnormal Neurodevelopment [5.771221868064265]
マルチモーダルMRIデータから頑健な潜在特徴表現を学習するための,新しい自己教師付きコントラスト学習法を提案する。
本手法は,マルチモーダルデータの活用により,臨床実習におけるコンピュータ支援診断を容易にする能力を有する。
論文 参考訳(メタデータ) (2023-12-22T21:05:51Z) - Cross-modality Attention-based Multimodal Fusion for Non-small Cell Lung
Cancer (NSCLC) Patient Survival Prediction [0.6476298550949928]
非小細胞肺癌(NSCLC)における患者生存予測のためのモダリティ特異的知識の統合を目的としたマルチモーダル核融合パイプラインを提案する。
組織画像データとRNA-seqデータのみを用いてc-index0.5772と0.5885を達成した単一モダリティと比較して, 提案した融合法はc-index0.6587を達成した。
論文 参考訳(メタデータ) (2023-08-18T21:42:52Z) - Reliable Multimodality Eye Disease Screening via Mixture of Student's t
Distributions [49.4545260500952]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインEyeMoStについて紹介する。
本モデルでは,一様性に対する局所的不確実性と融合モードに対する大域的不確実性の両方を推定し,信頼性の高い分類結果を生成する。
パブリックデータセットと社内データセットの両方に関する実験結果から、我々のモデルは現在の手法よりも信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2023-03-17T06:18:16Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。