論文の概要: Teaching AI Stepwise Diagnostic Reasoning with Report-Guided Chain-of-Thought Learning
- arxiv url: http://arxiv.org/abs/2509.06409v1
- Date: Mon, 08 Sep 2025 08:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.007206
- Title: Teaching AI Stepwise Diagnostic Reasoning with Report-Guided Chain-of-Thought Learning
- Title(参考訳): レポート誘導型チェーン・オブ・ソート学習によるAIの段階的診断推論
- Authors: Yihong Luo, Wenwu He, Zhuo-Xu Cui, Dong Liang,
- Abstract要約: DiagCoTは汎用視覚言語モデル(VLM)に教師付き微調整を適用するフレームワークである
DiagCoTは、ドメインアライメントのためのコントラッシブなイメージレポートチューニング、推論ロジックをキャプチャするためのチェーン・オブ・シンセサイザー、および臨床報酬信号による強化チューニングを組み合わせることで、事実の正確性と流布性を高める。
LLaVA-MedやCXR-LLAVAといった最先端モデルでは、長い尾の病気や外部データセットよりも優れています。
- 参考スコア(独自算出の注目度): 11.537036709742345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents DiagCoT, a multi-stage framework that applies supervised fine-tuning to general-purpose vision-language models (VLMs) to emulate radiologists' stepwise diagnostic reasoning using only free-text reports. DiagCoT combines contrastive image-report tuning for domain alignment, chain-of-thought supervision to capture inferential logic, and reinforcement tuning with clinical reward signals to enhance factual accuracy and fluency. On the MIMIC-CXR benchmark, DiagCoT improved zero-shot disease classification AUC from 0.52 to 0.76 (absolute gain of 0.24), pathology grounding mIoU from 0.08 to 0.31 (absolute gain of 0.23), and report generation BLEU from 0.11 to 0.33 (absolute gain of 0.22). It outperformed state-of-the-art models including LLaVA-Med and CXR-LLAVA on long-tailed diseases and external datasets. By converting unstructured clinical narratives into structured supervision, DiagCoT offers a scalable approach for developing interpretable and diagnostically competent AI systems for radiology.
- Abstract(参考訳): 本研究は,放射線技師の段階的診断推論を自由テキストレポートのみを用いてエミュレートするために,汎用視覚言語モデル(VLM)に教師付き微調整を適用する多段階フレームワークであるDiagCoTを提案する。
DiagCoTは、ドメインアライメントのためのコントラッシブなイメージレポートチューニング、推論ロジックをキャプチャするためのチェーン・オブ・シンセサイザー、および臨床報酬信号による強化チューニングを組み合わせることで、事実の正確性と流布性を高める。
MIMIC-CXRベンチマークでは、AUCは0.52から0.76(絶対利得0.24)、mIoUは0.08から0.31(絶対利得0.23)、BLEUは0.11から0.33(絶対利得0.22)に改善された。
LLaVA-MedやCXR-LLAVAといった最先端モデルでは、長い尾の病気や外部データセットよりも優れています。
構造化されていない臨床物語を構造化された監視に変換することによって、DiagCoTは、ラジオロジーのための解釈可能で診断に適したAIシステムを開発するためのスケーラブルなアプローチを提供する。
関連論文リスト
- LGE-Guided Cross-Modality Contrastive Learning for Gadolinium-Free Cardiomyopathy Screening in Cine CMR [51.11296719862485]
CMRを用いたガドリニウムフリー心筋症スクリーニングのためのコントラシブラーニングおよびクロスモーダルアライメントフレームワークを提案する。
CMRとLate Gadolinium Enhancement (LGE) 配列の潜伏空間を整列させることにより, 本モデルでは線維症特異的な病理組織をCMR埋め込みにエンコードする。
論文 参考訳(メタデータ) (2025-08-23T07:21:23Z) - A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer [54.58205672910646]
RenalCLIPは、腎腫瘤の特徴、診断、予後のための視覚言語基盤モデルである。
腎がんの完全な臨床ワークフローにまたがる10のコアタスクにおいて、優れたパフォーマンスと優れた一般化性を実現した。
論文 参考訳(メタデータ) (2025-08-22T17:48:19Z) - Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation [1.5087814338685968]
胸部X線による疾患分類と地域別放射線診断レポートの作成を促進するための2段階フレームワークを提案する。
第一段階では、疾患分類のための視線誘導型コントラスト学習アーキテクチャを導入する。
第2段階では,信頼度重み付き診断キーワードを抽出するモジュールレポート生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-08-18T16:42:29Z) - LRMR: LLM-Driven Relational Multi-node Ranking for Lymph Node Metastasis Assessment in Rectal Cancer [12.795639054336226]
直腸癌リンパ節転移の術前評価は治療決定を導く。
一部の人工知能モデルはブラックボックスとして機能し、臨床信頼に必要な解釈性に欠ける。
LLM-Driven Multi-node Ranking frameworkであるLRMRを紹介する。
論文 参考訳(メタデータ) (2025-07-15T16:29:45Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis [0.0]
本研究では,自動結核検診(TB)を強化するビジョン・ランゲージ・モデル(VLM)を提案する。
胸部X線画像と臨床データを統合することにより,手動による解釈の課題に対処する。
このモデルでは、重要な慢性TBの病態を検出するための高精度(44%)とリコール(44%)が示された。
論文 参考訳(メタデータ) (2025-03-17T13:49:29Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。