論文の概要: Promoting cross-modal representations to improve multimodal foundation models for physiological signals
- arxiv url: http://arxiv.org/abs/2410.16424v1
- Date: Mon, 21 Oct 2024 18:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:17.539190
- Title: Promoting cross-modal representations to improve multimodal foundation models for physiological signals
- Title(参考訳): 生理学的信号のマルチモーダル基礎モデル改善のためのクロスモーダル表現の促進
- Authors: Ching Fang, Christopher Sandino, Behrooz Mahasseni, Juri Minxha, Hadi Pouransari, Erdrin Azemi, Ali Moin, Ellen Zippi,
- Abstract要約: マスク付きオートエンコーディング目標を用いて,マルチモーダルモデルの事前学習を行う。
このモデルでは,様々な下流タスクに対して線形に探索できる表現を学習できることが示されている。
クロスモダリティを誘導する明示的な手法は、マルチモーダル事前訓練戦略を強化する可能性があると論じる。
- 参考スコア(独自算出の注目度): 3.630706646160043
- License:
- Abstract: Many healthcare applications are inherently multimodal, involving several physiological signals. As sensors for these signals become more common, improving machine learning methods for multimodal healthcare data is crucial. Pretraining foundation models is a promising avenue for success. However, methods for developing foundation models in healthcare are still in early exploration and it is unclear which pretraining strategies are most effective given the diversity of physiological signals. This is partly due to challenges in multimodal health data: obtaining data across many patients is difficult and costly, there is a lot of inter-subject variability, and modalities are often heterogeneously informative across downstream tasks. Here, we explore these challenges in the PhysioNet 2018 dataset. We use a masked autoencoding objective to pretrain a multimodal model. We show that the model learns representations that can be linearly probed for a diverse set of downstream tasks. We hypothesize that cross-modal reconstruction objectives are important for successful multimodal training, as they encourage the model to integrate information across modalities. We demonstrate that modality dropout in the input space improves performance across downstream tasks. We also find that late-fusion models pretrained with contrastive learning objectives are less effective across multiple tasks. Finally, we analyze the model's representations, showing that attention weights become more cross-modal and temporally aligned with our pretraining strategy. The learned embeddings also become more distributed in terms of the modalities encoded by each unit. Overall, our work demonstrates the utility of multimodal foundation models with health data, even across diverse physiological data sources. We further argue that explicit methods for inducing cross-modality may enhance multimodal pretraining strategies.
- Abstract(参考訳): 多くの医療応用は本質的にマルチモーダルであり、いくつかの生理的シグナルを含んでいる。
これらの信号のセンサがより一般的になるにつれて、マルチモーダル医療データの機械学習手法の改善が不可欠である。
基礎モデルの事前訓練は、成功のための有望な道です。
しかし、医療における基礎モデル開発手法はまだ初期段階であり、生理的信号の多様性を考えると、どのような事前学習戦略が最も効果的かは明らかでない。
これは、多くの患者にまたがるデータ取得が困難でコストがかかること、オブジェクト間のばらつきが多いこと、モダリティが下流のタスクにまたがって不均一に情報をもたらすこと、などである。
ここでは、これらの課題をphysioNet 2018データセットで調査する。
マスク付きオートエンコーディング目標を用いて,マルチモーダルモデルの事前学習を行う。
このモデルでは,様々な下流タスクに対して線形に探索できる表現を学習できることが示されている。
我々は,モーダル間の情報統合をモデルに奨励するため,モーダル間再構築の目的がマルチモーダルトレーニングの成功に重要であると仮定する。
入力空間におけるモダリティ・ドロップアウトは、下流タスクにおけるパフォーマンスを向上させることを実証する。
また、比較学習目的で事前訓練されたレイトフュージョンモデルは、複数のタスクにまたがる効果が低いことも見いだした。
最後に、モデルの表現を分析し、注意重みがより横断的になり、時間的に事前学習戦略に適合することを示す。
学習された埋め込みはまた、各ユニットによって符号化されたモダリティの観点からより分散する。
本研究は, 健康データを用いたマルチモーダル基礎モデルの実用性を示すものである。
さらに,クロスモダリティを誘導する明示的な手法は,マルチモーダル事前学習戦略を向上させる可能性があると論じる。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文 参考訳(メタデータ) (2024-07-30T12:13:18Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data [10.774128925670183]
本稿では,フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つのがんデータセットにおける全スライド画像と多モードデータを用いたマルチモーダルサバイバル解析を行った。
HEALNetは、他のエンドツーエンドの訓練された融合モデルと比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Dynamic Multimodal Information Bottleneck for Multimodality
Classification [26.65073424377933]
本稿では,頑健な融合特徴表現を実現するための動的マルチモーダル情報ボトルネックフレームワークを提案する。
具体的には、情報ボトルネックモジュールは、融合機能におけるタスク関連情報やノイズをフィルタリングするのに役立ちます。
提案手法は最先端の手法を超越し, 大規模ノイズチャネルが存在する場合, 性能を維持できる唯一の手法である。
論文 参考訳(メタデータ) (2023-11-02T08:34:08Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - MultiTalent: A Multi-Dataset Approach to Medical Image Segmentation [1.146419670457951]
現在のプラクティスでは、モデルトレーニングと教師付き事前トレーニングを、1つまたはいくつかの類似したデータセットに制限している。
我々は多種多様なクラス定義を持つ複数のCTデータセットを活用する手法であるMultiTalentを提案する。
論文 参考訳(メタデータ) (2023-03-25T11:37:16Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - M2Net: Multi-modal Multi-channel Network for Overall Survival Time
Prediction of Brain Tumor Patients [151.4352001822956]
生存時間(OS)の早期かつ正確な予測は、脳腫瘍患者に対するより良い治療計画を得るのに役立つ。
既存の予測手法は、磁気共鳴(MR)ボリュームの局所的な病変領域における放射能特性に依存している。
我々は,マルチモーダルマルチチャネルネットワーク(M2Net)のエンドツーエンドOS時間予測モデルを提案する。
論文 参考訳(メタデータ) (2020-06-01T05:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。