論文の概要: Multimodal Carotid Risk Stratification with Large Vision-Language Models: Benchmarking, Fine-Tuning, and Clinical Insights
- arxiv url: http://arxiv.org/abs/2510.02922v1
- Date: Fri, 03 Oct 2025 11:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.371381
- Title: Multimodal Carotid Risk Stratification with Large Vision-Language Models: Benchmarking, Fine-Tuning, and Clinical Insights
- Title(参考訳): 大規模視神経モデルを用いた多モーダル頸動脈リスク階層化 : ベンチマーク, 微調整, 臨床的考察
- Authors: Daphne Tsolissou, Theofanis Ganitidis, Konstantinos Mitsis, Stergios CHristodoulidis, Maria Vakalopoulou, Konstantina Nikita,
- Abstract要約: 本研究では,マルチモーダル頸動脈プラーク評価のための最先端および最近の大規模視覚言語モデル (LVLM) の可能性について検討した。
インタビュースタイルの質問シーケンスを通じて現実的な診断シナリオをシミュレートするフレームワークを提案する。
実験の結果、LVLMが非常に強力であるとしても、すべてのLVLMが画像のモダリティと解剖を正確に識別できるわけではないことが判明した。
- 参考スコア(独自算出の注目度): 3.5469990240092373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable risk assessment for carotid atheromatous disease remains a major clinical challenge, as it requires integrating diverse clinical and imaging information in a manner that is transparent and interpretable to clinicians. This study investigates the potential of state-of-the-art and recent large vision-language models (LVLMs) for multimodal carotid plaque assessment by integrating ultrasound imaging (USI) with structured clinical, demographic, laboratory, and protein biomarker data. A framework that simulates realistic diagnostic scenarios through interview-style question sequences is proposed, comparing a range of open-source LVLMs, including both general-purpose and medically tuned models. Zero-shot experiments reveal that even if they are very powerful, not all LVLMs can accurately identify imaging modality and anatomy, while all of them perform poorly in accurate risk classification. To address this limitation, LLaVa-NeXT-Vicuna is adapted to the ultrasound domain using low-rank adaptation (LoRA), resulting in substantial improvements in stroke risk stratification. The integration of multimodal tabular data in the form of text further enhances specificity and balanced accuracy, yielding competitive performance compared to prior convolutional neural network (CNN) baselines trained on the same dataset. Our findings highlight both the promise and limitations of LVLMs in ultrasound-based cardiovascular risk prediction, underscoring the importance of multimodal integration, model calibration, and domain adaptation for clinical translation.
- Abstract(参考訳): 頸動脈アテローマ性疾患に対する信頼性の高いリスクアセスメントは、様々な臨床・画像情報を臨床医に透過的かつ解釈可能な方法で統合する必要があるため、大きな臨床課題である。
本研究は、超音波画像(USI)と構造化臨床、人口統計学、実験室、タンパク質バイオマーカーデータを統合することで、多モード頸動脈プラーク評価のための最先端および最近の大規模視覚言語モデル(LVLM)の可能性について検討する。
インタビュースタイルの質問列を通じて現実的な診断シナリオをシミュレートするフレームワークを提案し, 汎用モデルと医用モデルの両方を含む, オープンソースのLVLMを比較検討した。
ゼロショット実験では、たとえ非常に強力であっても、全てのLVLMが画像のモダリティと解剖を正確に識別できるわけではない。
この制限に対処するため、LLaVa-NeXT-Vicunaはローランク適応(LoRA)を用いて超音波領域に適応し、脳卒中リスク層化を著しく改善した。
テキスト形式でのマルチモーダル表データの統合により、特異性とバランスの取れた精度がさらに向上し、同じデータセットでトレーニングされた事前畳み込みニューラルネットワーク(CNN)ベースラインと比較して、競争性能が向上する。
本研究は, 超音波による心血管リスク予測におけるLVLMの有望性と限界を両立させ, マルチモーダル統合, モデル校正, 臨床翻訳におけるドメイン適応の重要性を浮き彫りにした。
関連論文リスト
- Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。
患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文 参考訳(メタデータ) (2026-02-02T13:07:52Z) - Automated Lesion Segmentation of Stroke MRI Using nnU-Net: A Comprehensive External Validation Across Acute and Chronic Lesions [0.0]
複数のMRIデータセットにまたがるnU-Netフレームワークを用いて脳卒中病変のセグメンテーションを評価する。
脳卒中期にはモデルが頑健な一般化を示し, セグメンテーション精度はレータ間信頼性に近づいた。
急性期において、DWIで訓練されたモデルはFLAIRベースのモデルより一貫して優れており、マルチモーダルの組み合わせからわずかに利益を得ただけだった。
慢性期脳卒中では、トレーニングセットのサイズが増加し、数百件以上のリターンが低下した。
論文 参考訳(メタデータ) (2026-01-13T16:29:20Z) - Liver Fibrosis Quantification and Analysis: The LiQA Dataset and Baseline Method [31.756744402295542]
LiQAデータセットは、複雑な実環境下でLiver(LiSeg)とLiver Fibrosis Staging(LiFS)のアルゴリズムをベンチマークするためにキュレートされる。
本稿では, 半教師付き学習フレームワークと外部データを統合し, 頑健なセグメンテーションを実現する。
論文 参考訳(メタデータ) (2025-12-08T15:44:24Z) - From Promise to Practical Reality: Transforming Diffusion MRI Analysis with Fast Deep Learning Enhancement [35.368152968098194]
FastFOD-Netは、FODを優れたパフォーマンスで強化し、臨床使用のためのトレーニング/推論効率を提供するエンドツーエンドのディープラーニングフレームワークである。
この研究は、拡散MRIの強化のための深層学習に基づく手法を、より広く採用し、臨床信頼を構築することを促進する。
論文 参考訳(メタデータ) (2025-08-13T17:56:29Z) - NeuroMoE: A Transformer-Based Mixture-of-Experts Framework for Multi-Modal Neurological Disorder Classification [3.5313393560458826]
Deep Learningは最近、診断を助けるために医療データから意味のあるパターンを抽出する強力なツールとして登場した。
神経疾患を分類するための新しいトランスフォーマーベースのMixture-of-Experts(MoE)フレームワークを提案する。
我々のフレームワークは82.47%の検証精度を達成し、ベースライン法を10%以上上回っている。
論文 参考訳(メタデータ) (2025-06-17T20:40:06Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data [0.0]
本研究では,SIGLIPとGemma-3bアーキテクチャを併用したVLM(Vision-Language Model)を提案する。
VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成する。
結石,空洞,結節などの急性TBの病態は,高い精度とリコールで検出された。
論文 参考訳(メタデータ) (2025-03-17T14:08:35Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - LLM-driven Multimodal Target Volume Contouring in Radiation Oncology [46.23891509553877]
大規模言語モデル(LLM)は、テキスト情報と画像の統合を容易にする。
LLM駆動型マルチモーダルAI,すなわちLLMSegを提案する。
提案モデルでは,従来のユニモーダルAIモデルと比較して,性能が著しく向上していることが実証された。
論文 参考訳(メタデータ) (2023-11-03T13:38:42Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z) - Co-Heterogeneous and Adaptive Segmentation from Multi-Source and
Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion
Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。
本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。
CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文 参考訳(メタデータ) (2020-05-27T06:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。