論文の概要: Leveraging Foundational Models and Simple Fusion for Multi-modal Physiological Signal Analysis
- arxiv url: http://arxiv.org/abs/2512.15250v1
- Date: Wed, 17 Dec 2025 09:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.925465
- Title: Leveraging Foundational Models and Simple Fusion for Multi-modal Physiological Signal Analysis
- Title(参考訳): 多モード生理信号解析のための基礎モデルと簡易融合の活用
- Authors: Youssef Ghallab, Omar Iraqy, Mohamed Kandil, Mohamed Ashraf, Saadeldine Eletter, Morougue Ghazal, Ayman Khalafallah, Nagwa El-Makky,
- Abstract要約: 我々はCBraModエンコーダを大規模自己監督型ECGプリトレーニングに適用する。
我々は、事前訓練されたCBraModエンコーダをEEGに利用し、対称ECGエンコーダを事前訓練する。
提案手法は, 簡単な融合であっても, 慎重に設計された生理的エンコーダが下流性能を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physiological signals such as electrocardiograms (ECG) and electroencephalograms (EEG) provide complementary insights into human health and cognition, yet multi-modal integration is challenging due to limited multi-modal labeled data, and modality-specific differences . In this work, we adapt the CBraMod encoder for large-scale self-supervised ECG pretraining, introducing a dual-masking strategy to capture intra- and inter-lead dependencies. To overcome the above challenges, we utilize a pre-trained CBraMod encoder for EEG and pre-train a symmetric ECG encoder, equipping each modality with a rich foundational representation. These representations are then fused via simple embedding concatenation, allowing the classification head to learn cross-modal interactions, together enabling effective downstream learning despite limited multi-modal supervision. Evaluated on emotion recognition, our approach achieves near state-of-the-art performance, demonstrating that carefully designed physiological encoders, even with straightforward fusion, substantially improve downstream performance. These results highlight the potential of foundation-model approaches to harness the holistic nature of physiological signals, enabling scalable, label-efficient, and generalizable solutions for healthcare and affective computing.
- Abstract(参考訳): 心電図(ECG)や脳波(EEG)などの生理学的信号は、人間の健康や認知に相補的な洞察を与えるが、マルチモーダルな統合は、限られたマルチモーダルなラベル付きデータとモダリティ特有の違いのために困難である。
本研究では,CBraModエンコーダを大規模自己教師型ECGプリトレーニングに適用し,リード内およびリード間依存関係をキャプチャするためのデュアルマスキング戦略を導入する。
以上の課題を克服するために,脳波に事前学習したCBraModエンコーダと対称ECGエンコーダを併用し,各モードにリッチな基礎表現を付与する。
これらの表現は、単純な埋め込み結合によって融合され、分類ヘッドはマルチモーダルな相互作用を学習し、同時に、マルチモーダルな監督が限られているにもかかわらず、効果的な下流学習を可能にする。
本手法は,感情認識を基礎としてほぼ最先端のパフォーマンスを達成し,簡単な融合であっても,慎重に設計された生理的エンコーダが下流のパフォーマンスを大幅に向上することを示した。
これらの結果は、生理学的信号の全体的性質を活用する基礎モデルアプローチの可能性を強調し、医療や情緒的コンピューティングのためのスケーラブルでラベル効率、一般化可能なソリューションを可能にした。
関連論文リスト
- Transferring Clinical Knowledge into ECGs Representation [0.19498378931702776]
本稿では,マルチモーダル臨床データから強力なECGエンコーダへ知識を伝達する新しい3段階トレーニングパラダイムを提案する。
我々は、文脈的臨床情報に富んだ心電図表現を作成するために、自己監督型、共同埋め込み型プレトレーニングステージを用いている。
モデルの出力を説明する間接的な方法として、ECG埋め込みから直接、関連する実験室の異常を予測できるように訓練する。
論文 参考訳(メタデータ) (2025-12-07T22:19:24Z) - Simulator and Experience Enhanced Diffusion Model for Comprehensive ECG Generation [52.19347532840774]
本稿では,心電図生成のための新しい生理シミュレータSE-Diffを提案する。
SE-Diffは、軽量常微分方程式(ODE)ベースのECGシミュレータをビートデコーダを介して拡散過程に統合する。
実世界のECGデータセットに対する大規模な実験により、SE-Diffは信号の忠実度とテキスト-ECGセマンティックアライメントの両方を改善している。
論文 参考訳(メタデータ) (2025-11-13T02:57:10Z) - WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - Towards Robust Multimodal Physiological Foundation Models: Handling Arbitrary Missing Modalities [9.785262633953794]
生理オムニ (Phylo Omni) は、マルチモーダルな生理的信号解析の基礎モデルである。
分離されたマルチモーダル・トークンーザを訓練し、マスクされた信号の事前訓練を可能にする。
最先端のパフォーマンスを達成しつつ、モダリティの欠如に対して強い堅牢性を維持します。
論文 参考訳(メタデータ) (2025-04-28T09:00:04Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - Boosting Masked ECG-Text Auto-Encoders as Discriminative Learners [10.088785685439134]
本稿では,コントラッシブマスクを用いた自動エンコーダアーキテクチャを用いて,ECGとテキストデータを事前学習するフレームワークD-BETAを提案する。
D-BETAは、生成性の強さと差別能力の強化を一意に組み合わせて、堅牢なクロスモーダル表現を実現する。
論文 参考訳(メタデータ) (2024-10-03T01:24:09Z) - fMRI from EEG is only Deep Learning away: the use of interpretable DL to
unravel EEG-fMRI relationships [68.8204255655161]
多チャンネル脳波データからいくつかの皮質下領域の活性を回復するための解釈可能な領域基底解を提案する。
我々は,皮質下核の血行動態信号の頭皮脳波予測の空間的・時間的パターンを復元する。
論文 参考訳(メタデータ) (2022-10-23T15:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。