論文の概要: MedScribe: Clinically Grounded CT Reporting through Agentic Workflows
- arxiv url: http://arxiv.org/abs/2605.01779v1
- Date: Sun, 03 May 2026 08:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.936224
- Title: MedScribe: Clinically Grounded CT Reporting through Agentic Workflows
- Title(参考訳): MedScribe: エージェントワークフローによる臨床診断
- Authors: Giuseppe A. Orlando, Paolo Papotti, Maria A. Zuluaga, Olivier Humbert, Marco Lorenzi,
- Abstract要約: 視覚言語モデル(VLM)は、自動放射線診断レポート生成の可能性を示している。
我々は,仮説駆動型フレームワークであるMedScribeを紹介し,レポート生成を反復的証拠取得プロセスとして再構築する。
- 参考スコア(独自算出の注目度): 13.40306812882295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have shown potential for automated radiology report generation, yet existing approaches rely on global embedding compression of volumetric data, often leading to hallucinated findings and limited anatomical grounding in 3D CT imaging. We introduce MedScribe, a hypothesis-driven framework that reformulates report generation as an iterative evidence acquisition process rather than a single-pass encoding task. MedScribe models reporting as a sequential decision process in which a large language model dynamically invokes pathology-specific diagnostic tools to extract localized volumetric features. These structured features are used to query a multidimensional retrieval space aligned with pathology-specific textual evidence. By explicitly accumulating quantitative evidence prior to synthesis, the framework enforces fine-grained grounding and reduces unsupported claims. Without task-specific fine-tuning, MedScribe improves clinical accuracy, factual consistency, and interpretability on CT-RATE and RadChestCT compared to state-of-the-art 2D and 3D VLMs, demonstrating the value of hypothesis-driven reasoning for reliable medical image reporting.
- Abstract(参考訳): 視覚言語モデル(VLM)は、自動放射線診断レポート生成の可能性を示しているが、既存のアプローチは、ボリュームデータのグローバルな埋め込み圧縮に依存しており、しばしば幻覚所見や3次元CT画像における解剖学的根拠の制限につながる。
我々は、単一パス符号化タスクではなく、反復的な証拠取得プロセスとしてレポート生成を再構成する仮説駆動フレームワークであるMedScribeを紹介する。
MedScribe モデルでは,大言語モデルが病理診断ツールを動的に実行し,局所的なボリューム特徴を抽出するシーケンシャルな意思決定プロセスとして報告する。
これらの構造的特徴は、病理学固有のテキスト証拠と整合した多次元検索空間を問合せするために用いられる。
合成に先立って定量的な証拠を明示的に蓄積することにより、この枠組みはきめ細かな基礎化を強制し、不当な主張を減らす。
タスク固有の微調整がなければ、MedScribeはCT-RATEとRadChestCTの臨床的正確性、事実整合性、解釈可能性を改善し、信頼性の高い医用画像レポートにおける仮説駆動推論の価値を示す。
関連論文リスト
- EXACT: an explainable anomaly-aware vision foundation model for analysis of 3D chest CT [29.0378459959757]
EXACTは3次元胸部CTの異常認識基盤モデルである。
2つの臨床スキャンと放射線学レポートから空間的に解決された表現を学習する。
EXACTは臨床的に関係のあるCTタスクに対して一貫した改善を示す。
論文 参考訳(メタデータ) (2026-04-27T07:57:47Z) - MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging [6.520674045578402]
本稿では,Voxelディスクリプタとして事前訓練された潜伏医療拡散モデルのマルチスケール特徴を利用する,トレーニングフリーな3D対応フレームワークであるMedDIFTを提案する。
公開されている肺CTデータセットでは、MedDIFTは最先端のUniGradICONモデルに匹敵する対応精度を達成している。
論文 参考訳(メタデータ) (2025-12-05T09:53:07Z) - A Clinically-Grounded Two-Stage Framework for Renal CT Report Generation [4.408787333571913]
本稿では,自動腎CTレポート作成のための枠組みを提案する。
ステージ1では、マルチタスク学習モデルが、各2次元画像から構造化された臨床特徴を検出する。
ステージ2では、視覚言語モデルが画像と検出された特徴に条件付けされた自由テキストレポートを生成する。
論文 参考訳(メタデータ) (2025-06-30T07:45:02Z) - Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models [9.76070837929117]
既存のアライメント手法は、微粒な病理属性の分離よりも病気のクラス間の分離を優先する。
本稿では,マルチモーダル三重項学習による画像テキストアライメントを向上させる新しい手法であるMedTrimを提案する。
我々の実証では,MedTrimは,最先端のアライメント手法と比較して,下流検索および分類タスクの性能を向上させることが示されている。
論文 参考訳(メタデータ) (2025-04-22T14:17:51Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。