論文の概要: Multimodal Health Risk Prediction System for Chronic Diseases via Vision-Language Fusion and Large Language Models
- arxiv url: http://arxiv.org/abs/2509.18221v1
- Date: Mon, 22 Sep 2025 05:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.498971
- Title: Multimodal Health Risk Prediction System for Chronic Diseases via Vision-Language Fusion and Large Language Models
- Title(参考訳): 視覚・言語融合と大規模言語モデルによる慢性疾患のマルチモーダルヘルスリスク予測システム
- Authors: Dingxin Lu, Shurui Wu, Xinyi Huang,
- Abstract要約: 個人の健康リスクを積極的に予測できる統合マルチモーダルAIフレームワークは、緊急に必要である。
VL-RiskFormerは,言語モデル (LLM) の推論ヘッドを最上層に埋め込んだ階層型階層型視覚言語マルチモーダルトランスである。
- 参考スコア(独自算出の注目度): 6.169451756799087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rising global burden of chronic diseases and the multimodal and heterogeneous clinical data (medical imaging, free-text recordings, wearable sensor streams, etc.), there is an urgent need for a unified multimodal AI framework that can proactively predict individual health risks. We propose VL-RiskFormer, a hierarchical stacked visual-language multimodal Transformer with a large language model (LLM) inference head embedded in its top layer. The system builds on the dual-stream architecture of existing visual-linguistic models (e.g., PaLM-E, LLaVA) with four key innovations: (i) pre-training with cross-modal comparison and fine-grained alignment of radiological images, fundus maps, and wearable device photos with corresponding clinical narratives using momentum update encoders and debiased InfoNCE losses; (ii) a time fusion block that integrates irregular visit sequences into the causal Transformer decoder through adaptive time interval position coding; (iii) a disease ontology map adapter that injects ICD-10 codes into visual and textual channels in layers and infers comorbid patterns with the help of a graph attention mechanism. On the MIMIC-IV longitudinal cohort, VL-RiskFormer achieved an average AUROC of 0.90 with an expected calibration error of 2.7 percent.
- Abstract(参考訳): 慢性疾患の世界的な負担の増大や、医療画像、自由テキスト記録、ウェアラブルセンサーストリームなど)多モード・異種臨床データにより、個人の健康リスクを積極的に予測できる統合型マルチモーダルAIフレームワークが緊急に必要となる。
VL-RiskFormerは,言語モデル (LLM) の推論ヘッドを最上層に埋め込んだ階層型階層型視覚言語マルチモーダルトランスである。
このシステムは、既存の視覚言語モデル(例えば、PaLM-E、LLaVA)のデュアルストリームアーキテクチャ上に構築され、4つの重要なイノベーションがある。
一 運動量更新エンコーダ及びデバイアスドInfoNCE損失を用いて、対応する臨床物語と無線画像、眼底地図及びウェアラブルデバイス写真との相互比較及び微粒化アライメントによる事前訓練
二 適応時間間隔位置符号化により不規則な訪問シーケンスを因果トランスフォーマーデコーダに統合する時間融合ブロック
三 ICD-10 コードを層内の視覚的及びテキスト的チャネルに注入し、グラフアテンション機構の助けを借りてコンコービッドパターンを推測する病気オントロジーマップアダプタ。
MIMIC-IVの縦コホートでは、VL-RiskFormerは平均AUROC0.90、キャリブレーション誤差2.7%を達成した。
関連論文リスト
- impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - MedSpaformer: a Transferable Transformer with Multi-granularity Token Sparsification for Medical Time Series Classification [25.47662257105448]
MedTS分類に適したトランスフォーマーベースのフレームワークであるMedSpaformerを紹介する。
グローバルなコンテキストモデリングとトークンスペーシングを可能にする、スパーストークンベースのデュアルアテンション機構が組み込まれている。
我々のモデルは、教師あり学習下で7つの医療データセットで13のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-19T13:22:42Z) - VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - TBConvL-Net: A Hybrid Deep Learning Architecture for Robust Medical Image Segmentation [6.013821375459473]
医用画像セグメンテーションのための新しいディープラーニングアーキテクチャを提案する。
提案モデルでは,10の公開データセット上でのテクニックの現状に対して,一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-09-05T09:14:03Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。