論文の概要: Teaching AI Stepwise Diagnostic Reasoning with Report-Guided Chain-of-Thought Learning
- arxiv url: http://arxiv.org/abs/2509.06409v1
- Date: Mon, 08 Sep 2025 08:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.007206
- Title: Teaching AI Stepwise Diagnostic Reasoning with Report-Guided Chain-of-Thought Learning
- Title(参考訳): レポート誘導型チェーン・オブ・ソート学習によるAIの段階的診断推論
- Authors: Yihong Luo, Wenwu He, Zhuo-Xu Cui, Dong Liang,
- Abstract要約: DiagCoTは汎用視覚言語モデル(VLM)に教師付き微調整を適用するフレームワークである
DiagCoTは、ドメインアライメントのためのコントラッシブなイメージレポートチューニング、推論ロジックをキャプチャするためのチェーン・オブ・シンセサイザー、および臨床報酬信号による強化チューニングを組み合わせることで、事実の正確性と流布性を高める。
LLaVA-MedやCXR-LLAVAといった最先端モデルでは、長い尾の病気や外部データセットよりも優れています。
- 参考スコア(独自算出の注目度): 11.537036709742345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents DiagCoT, a multi-stage framework that applies supervised fine-tuning to general-purpose vision-language models (VLMs) to emulate radiologists' stepwise diagnostic reasoning using only free-text reports. DiagCoT combines contrastive image-report tuning for domain alignment, chain-of-thought supervision to capture inferential logic, and reinforcement tuning with clinical reward signals to enhance factual accuracy and fluency. On the MIMIC-CXR benchmark, DiagCoT improved zero-shot disease classification AUC from 0.52 to 0.76 (absolute gain of 0.24), pathology grounding mIoU from 0.08 to 0.31 (absolute gain of 0.23), and report generation BLEU from 0.11 to 0.33 (absolute gain of 0.22). It outperformed state-of-the-art models including LLaVA-Med and CXR-LLAVA on long-tailed diseases and external datasets. By converting unstructured clinical narratives into structured supervision, DiagCoT offers a scalable approach for developing interpretable and diagnostically competent AI systems for radiology.
- Abstract(参考訳): 本研究は,放射線技師の段階的診断推論を自由テキストレポートのみを用いてエミュレートするために,汎用視覚言語モデル(VLM)に教師付き微調整を適用する多段階フレームワークであるDiagCoTを提案する。
DiagCoTは、ドメインアライメントのためのコントラッシブなイメージレポートチューニング、推論ロジックをキャプチャするためのチェーン・オブ・シンセサイザー、および臨床報酬信号による強化チューニングを組み合わせることで、事実の正確性と流布性を高める。
MIMIC-CXRベンチマークでは、AUCは0.52から0.76(絶対利得0.24)、mIoUは0.08から0.31(絶対利得0.23)、BLEUは0.11から0.33(絶対利得0.22)に改善された。
LLaVA-MedやCXR-LLAVAといった最先端モデルでは、長い尾の病気や外部データセットよりも優れています。
構造化されていない臨床物語を構造化された監視に変換することによって、DiagCoTは、ラジオロジーのための解釈可能で診断に適したAIシステムを開発するためのスケーラブルなアプローチを提供する。
関連論文リスト
- Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - EMeRALDS: Electronic Medical Record Driven Automated Lung Nodule Detection and Classification in Thoracic CT Images [4.533165461983661]
肺がんは世界中でがん関連死亡の原因となっている。
本研究では,大規模視覚言語モデル(VLM)を活用したコンピュータ支援診断(CAD)システムの開発を目的とする。
提案手法はゼロショット肺結節解析において強い性能を示した。
論文 参考訳(メタデータ) (2025-09-15T09:11:17Z) - LGE-Guided Cross-Modality Contrastive Learning for Gadolinium-Free Cardiomyopathy Screening in Cine CMR [51.11296719862485]
CMRを用いたガドリニウムフリー心筋症スクリーニングのためのコントラシブラーニングおよびクロスモーダルアライメントフレームワークを提案する。
CMRとLate Gadolinium Enhancement (LGE) 配列の潜伏空間を整列させることにより, 本モデルでは線維症特異的な病理組織をCMR埋め込みにエンコードする。
論文 参考訳(メタデータ) (2025-08-23T07:21:23Z) - A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer [54.58205672910646]
RenalCLIPは、腎腫瘤の特徴、診断、予後のための視覚言語基盤モデルである。
腎がんの完全な臨床ワークフローにまたがる10のコアタスクにおいて、優れたパフォーマンスと優れた一般化性を実現した。
論文 参考訳(メタデータ) (2025-08-22T17:48:19Z) - A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。
Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。
提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文 参考訳(メタデータ) (2025-08-19T14:41:22Z) - Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation [1.5087814338685968]
胸部X線による疾患分類と地域別放射線診断レポートの作成を促進するための2段階フレームワークを提案する。
第一段階では、疾患分類のための視線誘導型コントラスト学習アーキテクチャを導入する。
第2段階では,信頼度重み付き診断キーワードを抽出するモジュールレポート生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-18T16:42:29Z) - LRMR: LLM-Driven Relational Multi-node Ranking for Lymph Node Metastasis Assessment in Rectal Cancer [12.795639054336226]
直腸癌リンパ節転移の術前評価は治療決定を導く。
一部の人工知能モデルはブラックボックスとして機能し、臨床信頼に必要な解釈性に欠ける。
LLM-Driven Multi-node Ranking frameworkであるLRMRを紹介する。
論文 参考訳(メタデータ) (2025-07-15T16:29:45Z) - A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation [4.408787333571913]
本稿では,自動腎CTレポート作成のための枠組みを提案する。
ステージ1では、マルチタスク学習モデルが、各2次元画像から構造化された臨床特徴を検出する。
ステージ2では、視覚言語モデルが画像と検出された特徴に条件付けされた自由テキストレポートを生成する。
論文 参考訳(メタデータ) (2025-06-30T07:45:02Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis [0.0]
本研究では,自動結核検診(TB)を強化するビジョン・ランゲージ・モデル(VLM)を提案する。
胸部X線画像と臨床データを統合することにより,手動による解釈の課題に対処する。
このモデルでは、重要な慢性TBの病態を検出するための高精度(44%)とリコール(44%)が示された。
論文 参考訳(メタデータ) (2025-03-17T13:49:29Z) - TACCO: Task-guided Co-clustering of Clinical Concepts and Patient Visits for Disease Subtyping based on EHR Data [42.96821770394798]
TACCOは、EMHデータのハイパーグラフモデリングに基づいて、臨床概念と患者訪問のクラスターを共同で発見する新しいフレームワークである。
我々は,表現型分類と心血管リスク予測の下流臨床課題に対して,公共MIMIC-IIIデータセットとエモリー内部CRADLEデータセットを用いて実験を行った。
深層モデル解析,クラスタリング結果解析,臨床ケーススタディは,TACCOが提供した改良されたユーティリティと洞察に富んだ解釈をさらに検証する。
論文 参考訳(メタデータ) (2024-06-14T14:18:38Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。