論文の概要: AuD-Former: A Hierarchical Transformer Network for Multimodal Audio-Based Disease Prediction
- arxiv url: http://arxiv.org/abs/2410.09289v1
- Date: Fri, 11 Oct 2024 22:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:23:18.112947
- Title: AuD-Former: A Hierarchical Transformer Network for Multimodal Audio-Based Disease Prediction
- Title(参考訳): AuD-Former:マルチモーダルオーディオベースの疾患予測のための階層型トランスフォーマーネットワーク
- Authors: Jinjin Cai, Ruiqi Wang, Dezhong Zhao, Ziqin Yuan, Victoria McKenna, Aaron Friedman, Rachel Foot, Susan Storey, Ryan Boente, Sudip Vhaduri, Byung-Cheol Min,
- Abstract要約: 生体音響モダリティ内の様々な領域の機能を統合したマルチモーダル融合は,診断性能の向上に有効であることが証明された。
この分野の既存の手法のほとんどは、モーダル内またはモーダル間融合にのみ焦点をあてる一方的な融合戦略を採用している。
一般的なマルチモーダルオーディオベースの疾患予測のために設計された階層型トランスフォーマーネットワークであるAuD-Formerを提案する。
- 参考スコア(独自算出の注目度): 6.175036031779841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-based disease prediction is emerging as a promising supplement to traditional medical diagnosis methods, facilitating early, convenient, and non-invasive disease detection and prevention. Multimodal fusion, which integrates features from various domains within or across bio-acoustic modalities, has proven effective in enhancing diagnostic performance. However, most existing methods in the field employ unilateral fusion strategies that focus solely on either intra-modal or inter-modal fusion. This approach limits the full exploitation of the complementary nature of diverse acoustic feature domains and bio-acoustic modalities. Additionally, the inadequate and isolated exploration of latent dependencies within modality-specific and modality-shared spaces curtails their capacity to manage the inherent heterogeneity in multimodal data. To fill these gaps, we propose AuD-Former, a hierarchical transformer network designed for general multimodal audio-based disease prediction. Specifically, we seamlessly integrate intra-modal and inter-modal fusion in a hierarchical manner and proficiently encode the necessary intra-modal and inter-modal complementary correlations, respectively. Comprehensive experiments demonstrate that AuD-Former achieves state-of-the-art performance in predicting three diseases: COVID-19, Parkinson's disease, and pathological dysarthria, showcasing its promising potential in a broad context of audio-based disease prediction tasks. Additionally, extensive ablation studies and qualitative analyses highlight the significant benefits of each main component within our model.
- Abstract(参考訳): オーディオベースの疾患予測は、早期、便利な、非侵襲的な疾患の検出と予防を容易にする、従来の診断方法の有望なサプリメントとして現れている。
生体音響モダリティ内の様々な領域の機能を統合したマルチモーダル融合は,診断性能の向上に有効であることが証明された。
しかし、この分野の既存の手法のほとんどは、モーダル内またはモーダル間融合にのみ焦点をあてる一方的な融合戦略を採用している。
このアプローチは、様々な音響特徴領域と生体音響モダリティの相補的な性質のフル活用を制限する。
さらに、モダリティ特化空間とモダリティ共有空間における潜伏依存性の不十分かつ孤立的な探索は、マルチモーダルデータにおける固有の不均一性を管理する能力を増大させる。
このようなギャップを埋めるために,一般的なマルチモーダルオーディオベースの疾患予測のために設計された階層型トランスフォーマーネットワークであるAuD-Formerを提案する。
具体的には,モーダル内核融合とモーダル間核融合を階層的にシームレスに統合し,必要なモーダル内核融合とモーダル間相補的相関を適切に符号化する。
総合的な実験により、AuD-Formerは、COVID-19、パーキンソン病、病理疾患の3つの疾患の予測において最先端のパフォーマンスを達成し、オーディオベースの疾患予測タスクの幅広い文脈においてその有望な可能性を示している。
さらに、広範囲にわたるアブレーション研究と定性的分析は、我々のモデルにおける各主要コンポーネントの有意義な利点を浮き彫りにしている。
関連論文リスト
- MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Multi-modal Cross-domain Self-supervised Pre-training for fMRI and EEG Fusion [3.8153469790341084]
ドメイン間でのマルチモーダル情報の相乗化に自己教師付き学習を活用する新しい手法を提案する。
提案手法を利用した大規模事前学習データセットと事前学習MCSPモデルを構築した。
本研究は,fMRIと脳波の融合の著しい進展に寄与し,クロスドメイン機能の統合を図っている。
論文 参考訳(メタデータ) (2024-09-27T20:25:17Z) - MDA: An Interpretable and Scalable Multi-Modal Fusion under Missing Modalities and Intrinsic Noise Conditions [6.612523356335498]
本稿では,マルチモーダル学習の課題に対処するために,モーダル・ドメイン・アテンション(MDA)モデルを提案する。
MDAは、異なるモーダルに対して動的注意を適応的に割り当てる能力により、連続的な注意を通してモーダル間の線形関係を構築する。
以上の結果から,MDAと診断基準が一致していることが示唆された。
論文 参考訳(メタデータ) (2024-06-15T09:08:58Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Joint Self-Supervised and Supervised Contrastive Learning for Multimodal
MRI Data: Towards Predicting Abnormal Neurodevelopment [5.771221868064265]
マルチモーダルMRIデータから頑健な潜在特徴表現を学習するための,新しい自己教師付きコントラスト学習法を提案する。
本手法は,マルチモーダルデータの活用により,臨床実習におけるコンピュータ支援診断を容易にする能力を有する。
論文 参考訳(メタデータ) (2023-12-22T21:05:51Z) - Context-aware attention layers coupled with optimal transport domain
adaptation and multimodal fusion methods for recognizing dementia from
spontaneous speech [0.0]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の主要な原因である複雑な神経認知疾患である。
そこで本研究では,AD患者検出のための新しい手法を提案する。
ADReSSとADReSSo Challengeで実施した実験は、既存の研究イニシアチブに対して導入したアプローチの有効性を示している。
論文 参考訳(メタデータ) (2023-05-25T18:18:09Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Reliable Multimodality Eye Disease Screening via Mixture of Student's t
Distributions [49.4545260500952]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインEyeMoStについて紹介する。
本モデルでは,一様性に対する局所的不確実性と融合モードに対する大域的不確実性の両方を推定し,信頼性の高い分類結果を生成する。
パブリックデータセットと社内データセットの両方に関する実験結果から、我々のモデルは現在の手法よりも信頼性が高いことが判明した。
論文 参考訳(メタデータ) (2023-03-17T06:18:16Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Robust Multimodal Brain Tumor Segmentation via Feature Disentanglement
and Gated Fusion [71.87627318863612]
画像モダリティの欠如に頑健な新しいマルチモーダルセグメンテーションフレームワークを提案する。
我々のネットワークは、入力モードをモダリティ固有の外観コードに分解するために、特徴不整合を用いる。
我々は,BRATSチャレンジデータセットを用いて,重要なマルチモーダル脳腫瘍セグメンテーション課題に対する本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-02-22T14:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。