論文の概要: LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis
- arxiv url: http://arxiv.org/abs/2602.21142v1
- Date: Tue, 24 Feb 2026 17:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.868628
- Title: LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis
- Title(参考訳): LUMEN : 予後と診断のための経時的マルチモーダルラジオグラフィーモデル
- Authors: Zhifan Jiang, Dong Yang, Vishwesh Nath, Abhijeet Parida, Nishad P. Kulkarni, Ziyue Xu, Daguang Xu, Syed Muhammad Anwar, Holger R. Roth, Marius George Linguraru,
- Abstract要約: 大規模視覚言語モデル(VLM)は、汎用的な応用から、臨床領域のような特殊なユースケースへと進化してきた。
1つの有望な応用は、胸部X線(CXR)などの放射線画像データを視覚的および自然言語的質問応答(VQA)インタフェースで解析することで、放射線技師の意思決定を支援することである。
縦長CXR解釈に最適化された新しいトレーニングフレームワークLUMENを導入し,マルチイメージとマルチタスク命令の微調整を活用する。
- 参考スコア(独自算出の注目度): 13.644529113273096
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large vision-language models (VLMs) have evolved from general-purpose applications to specialized use cases such as in the clinical domain, demonstrating potential for decision support in radiology. One promising application is assisting radiologists in decision-making by the analysis of radiology imaging data such as chest X-rays (CXR) via a visual and natural language question-answering (VQA) interface. When longitudinal imaging is available, radiologists analyze temporal changes, which are essential for accurate diagnosis and prognosis. The manual longitudinal analysis is a time-consuming process, motivating the development of a training framework that can provide prognostic capabilities. We introduce a novel training framework LUMEN, that is optimized for longitudinal CXR interpretation, leveraging multi-image and multi-task instruction fine-tuning to enhance prognostic and diagnostic performance. We conduct experiments on the publicly available MIMIC-CXR and its associated Medical-Diff-VQA datasets. We further formulate and construct a novel instruction-following dataset incorporating longitudinal studies, enabling the development of a prognostic VQA task. Our method demonstrates significant improvements over baseline models in diagnostic VQA tasks, and more importantly, shows promising potential for prognostic capabilities. These results underscore the value of well-designed, instruction-tuned VLMs in enabling more accurate and clinically meaningful radiological interpretation of longitudinal radiological imaging data.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、汎用的な応用から、臨床領域などの特殊なユースケースへと発展し、放射線学における意思決定支援の可能性を示している。
1つの有望な応用は、胸部X線(CXR)などの放射線画像データを視覚的および自然言語的質問応答(VQA)インタフェースで解析することで、放射線技師の意思決定を支援することである。
経時的画像撮影が可能となると、放射線医は正確な診断と予後に欠かせない時間的変化を解析する。
手動縦断解析は時間を要するプロセスであり、予後能力を提供するためのトレーニングフレームワークの開発を動機付けている。
縦長CXR解釈に最適化された新しいトレーニングフレームワークLUMENを導入し,マルチイメージとマルチタスク命令の微調整を活用して,予後と診断性能を向上させる。
我々は,MIMIC-CXRとその関連するメディカルディフ-VQAデータセットについて実験を行った。
さらに、縦断的研究を取り入れた新しい指示追従データセットを定式化し、構築し、予後VQAタスクの開発を可能にする。
本手法は, 診断VQAタスクにおけるベースラインモデルよりも有意な改善を示し, さらに重要なことは, 予後能力に有望な可能性を示唆している。
これらの結果は、より正確で臨床的に意義のある縦断的画像データの放射線学的解釈を可能にするために、よく設計され、訓練されたVLMの価値を裏付けるものである。
関連論文リスト
- A Review of Longitudinal Radiology Report Generation: Dataset Composition, Methods, and Performance Evaluation [44.033992726928034]
本調査は, 縦断的放射線診断レポート生成(LRRG)の総括的検討である。
提案手法は, データセット構築戦略, レポート生成アーキテクチャ, 縦に調整された設計, 評価プロトコルについて検討する。
我々は、今後の発展に向けての有望な方向性を概説し、この新興分野を前進させるための基盤を築くことを目的とする。
論文 参考訳(メタデータ) (2025-10-14T12:26:23Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - A Narrative Review on Large AI Models in Lung Cancer Screening, Diagnosis, and Treatment Planning [8.431488361911754]
肺がんは世界中で最も流行し、致命的な疾患の1つである。
大規模AIモデルの最近の進歩は、医療画像理解と臨床的意思決定を大幅に強化した。
本稿では, 肺がん検診, 診断, 予後, 治療における大規模AIモデルの適用状況について, 系統的に検討する。
論文 参考訳(メタデータ) (2025-06-08T17:42:24Z) - Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography [0.0]
胸部X線撮影における疾患検出のための放射線治療と深層学習によるアプローチについて検討した。
深層学習モデルは画像データから直接学習し、放射能ベースのモデルは手作りの特徴を抽出する。
これらの知見は、診断AIにおけるモデル選択のための統計的に検証された、データ駆動の推奨を提供する。
論文 参考訳(メタデータ) (2025-04-16T16:54:37Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。