論文の概要: Self-supervised learning of imaging and clinical signatures using a multimodal joint-embedding predictive architecture
- arxiv url: http://arxiv.org/abs/2509.15470v1
- Date: Thu, 18 Sep 2025 22:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.924631
- Title: Self-supervised learning of imaging and clinical signatures using a multimodal joint-embedding predictive architecture
- Title(参考訳): マルチモーダル結合型予測アーキテクチャを用いた画像と臨床署名の自己教師付き学習
- Authors: Thomas Z. Li, Aravind R. Krishnan, Lianrui Zuo, John M. Still, Kim L. Sandler, Fabien Maldonado, Thomas A. Lasko, Bennett A. Landman,
- Abstract要約: 肺結節診断のためのマルチモーダルモデルは、ラベル付きデータの不足と、これらのモデルがトレーニング分布に過度に適合する傾向によって制限される。
これらの課題に対処するために、縦・マルチモーダルアーカイブからの自己教師型学習を活用する。
- 参考スコア(独自算出の注目度): 2.2996127475972696
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of multimodal models for pulmonary nodule diagnosis is limited by the scarcity of labeled data and the tendency for these models to overfit on the training distribution. In this work, we leverage self-supervised learning from longitudinal and multimodal archives to address these challenges. We curate an unlabeled set of patients with CT scans and linked electronic health records from our home institution to power joint embedding predictive architecture (JEPA) pretraining. After supervised finetuning, we show that our approach outperforms an unregularized multimodal model and imaging-only model in an internal cohort (ours: 0.91, multimodal: 0.88, imaging-only: 0.73 AUC), but underperforms in an external cohort (ours: 0.72, imaging-only: 0.75 AUC). We develop a synthetic environment that characterizes the context in which JEPA may underperform. This work innovates an approach that leverages unlabeled multimodal medical archives to improve predictive models and demonstrates its advantages and limitations in pulmonary nodule diagnosis.
- Abstract(参考訳): 肺結節診断のためのマルチモーダルモデルの開発は,ラベル付きデータの不足と,これらのモデルがトレーニング分布に過度に適合する傾向によって制限される。
本研究では,これらの課題に対処するために,縦・マルチモーダルアーカイブからの自己教師型学習を活用する。
我々は, 自施設のCTスキャンと電子健康記録を, パワージョイント埋め込み予測アーキテクチャ (JEPA) の事前トレーニングに関連づけた, ラベルのない患者のセットをキュレートした。
教師付き微調整後,本手法は内部コホートにおいて非正規化マルチモーダルモデルと画像のみモデル(うち0.91, マルチモーダル: 0.88, 画像のみ: 0.73 AUC)より優れるが, 外部コホートでは低性能(うち0.72, 画像のみ: 0.75 AUC)を示す。
我々はJEPAが過小評価される可能性のあるコンテキストを特徴付ける合成環境を開発する。
この研究は、ラベルのないマルチモーダル医療アーカイブを活用して予測モデルを改善し、肺結節診断におけるその利点と限界を示すアプローチを革新する。
関連論文リスト
- Toward explainable AI approaches for breast imaging: adapting foundation models to diverse populations [4.505150709006532]
基礎モデルでは、乳房画像におけるその効果は未解明だが、専門的な医療画像のタスクを約束している。
本研究では,BiomedCLIPを基礎モデルとして活用し,モデル一般化の課題に対処する。
96,995枚の画像を用いて,一様性(s2Dのみ)と多様性トレーニングアプローチを比較し,重み付きコントラスト学習によるクラス不均衡に対処した。
論文 参考訳(メタデータ) (2025-11-21T22:45:50Z) - Integrating Genomics into Multimodal EHR Foundation Models [56.31910745104141]
本稿では,ポリジェニックリスクスコア(PRS)を基本データモダリティとして統合した,革新的なEHR基盤モデルを提案する。
このフレームワークは、臨床データと遺伝子前置詞の複雑な関係を学習することを目的としている。
このアプローチは、病気の予測、積極的な健康管理、リスク階層化、パーソナライズされた治療戦略に対する新たな洞察を解放するために重要である。
論文 参考訳(メタデータ) (2025-10-24T15:56:40Z) - MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis [19.063517827476826]
MM-DINOv2(MM-DINOv2)は,マルチモーダル・メディカル・イメージングのための事前学習型視覚基盤モデルDINOv2に適応する新しいフレームワークである。
本手法では,マルチモーダル・パッチの埋め込みを取り入れ,視覚基盤モデルによりマルチモーダル・イメージングデータを効果的に処理することができる。
本手法は外部テストセットで0.6のマシューズ相関係数(MCC)を達成し、最先端の教師付きアプローチを+11.1%超える。
論文 参考訳(メタデータ) (2025-09-08T12:34:15Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - COMPRER: A Multimodal Multi-Objective Pretraining Framework for Enhanced Medical Image Representation [1.5749416770494706]
COMPRERは、新しいマルチモーダル、マルチオブジェクト事前トレーニングフレームワークである。
医学的イメージ表現、診断的推論、および疾患の予後を高める。
論文 参考訳(メタデータ) (2024-02-04T08:05:58Z) - End-To-End Prediction of Knee Osteoarthritis Progression With
Multi-Modal Transformers [2.9822184411723645]
変形性膝関節症(KOA)は慢性筋骨格疾患である。
我々は、Deep Learningの最近の進歩を活用し、膝画像データのマルチモーダル融合のための統一的なフレームワークを開発した。
追跡分析の結果,画像データからの予測は外傷後の被験者に対してより正確であることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T09:10:57Z) - Longitudinal Multimodal Transformer Integrating Imaging and Latent
Clinical Signatures From Routine EHRs for Pulmonary Nodule Classification [4.002181247287472]
単発性肺結節(SPN)分類におけるERHからの経時的臨床所見とリピート画像を統合するためのトランスフォーマーベースのマルチモーダル戦略を提案する。
臨床症状の非観血的非観血的切り離しを行ない, 時間依存性の自己注意を利用して, 臨床症状の表現と胸部CTスキャンから共同学習を行った。
論文 参考訳(メタデータ) (2023-04-06T03:03:07Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。