論文の概要: RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography
- arxiv url: http://arxiv.org/abs/2604.15231v1
- Date: Thu, 16 Apr 2026 17:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.016449
- Title: RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography
- Title(参考訳): RadAgent:胸部CTの段階的解釈のためのAIエージェント
- Authors: Mélanie Roschewitz, Kenneth Styppa, Yitian Tao, Jiwoong Sohn, Jean-Benoit Delbrouck, Benjamin Gundersen, Nicolas Deperrois, Christian Bluethgen, Julia Vogt, Bjoern Menze, Farhad Nooralahzadeh, Michael Krauthammer, Michael Moor,
- Abstract要約: 視覚言語モデル(VLM)は、CT(Computed Tomography)などの医用画像のAI駆動による解釈と報告を著しく進歩させた。
しかし、既存の手法は、臨床医を最終出力の受動的観察者に還元し、彼らが検査、検証、精査するための解釈可能な推論の痕跡を提供しない。
我々は,段階的かつ解釈可能なプロセスを通じてCTレポートを生成するツール使用AIエージェントであるRadAgentを紹介する。
- 参考スコア(独自算出の注目度): 8.642043084168817
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLM) have markedly advanced AI-driven interpretation and reporting of complex medical imaging, such as computed tomography (CT). Yet, existing methods largely relegate clinicians to passive observers of final outputs, offering no interpretable reasoning trace for them to inspect, validate, or refine. To address this, we introduce RadAgent, a tool-using AI agent that generates CT reports through a stepwise and interpretable process. Each resulting report is accompanied by a fully inspectable trace of intermediate decisions and tool interactions, allowing clinicians to examine how the reported findings are derived. In our experiments, we observe that RadAgent improves Chest CT report generation over its 3D VLM counterpart, CT-Chat, across three dimensions. Clinical accuracy improves by 6.0 points (36.4% relative) in macro-F1 and 5.4 points (19.6% relative) in micro-F1. Robustness under adversarial conditions improves by 24.7 points (41.9% relative). Furthermore, RadAgent achieves 37.0% in faithfulness, a new capability entirely absent in its 3D VLM counterpart. By structuring the interpretation of chest CT as an explicit, tool-augmented and iterative reasoning trace, RadAgent brings us closer toward transparent and reliable AI for radiology.
- Abstract(参考訳): 視覚言語モデル(VLM)は、CT(Computerd tomography)のような複雑な医療画像のAIによる解釈と報告を著しく進歩させた。
しかし、既存の手法は、臨床医を最終出力の受動的観察者に還元し、彼らが検査、検証、精査するための解釈可能な推論の痕跡を提供しない。
そこで我々は,段階的かつ解釈可能なプロセスを通じてCTレポートを生成するツール使用AIエージェントであるRadAgentを紹介する。
それぞれの報告には、完全に検査可能な中間決定の痕跡とツールの相互作用が伴い、臨床医は報告された結果がどのように導出されるかを調べることができる。
実験の結果,RadAgentは3次元のCT-ChatよりもChest CTレポート生成を改善することがわかった。
臨床精度はマクロF1では6.0ポイント(36.4%)、マイクロF1では5.4ポイント(19.6%)向上する。
対向条件下でのロバストさは24.7ポイント(41.9%)改善する。
さらに、RadAgentは37.0%の忠実性を達成している。
RadAgentは、胸部CTを明示的でツール強化された反復的推論トレースとして解釈することで、放射線学のための透明で信頼性の高いAIに近づきます。
関連論文リスト
- Halfway to 3D: Ensembling 2.5D and 3D Models for Robust COVID-19 CT Diagnosis [5.645096759437525]
胸部CT画像から新型コロナウイルス検出・疾患分類を行うための深層学習フレームワークを提案する。
このフレームワークは2.5Dと3Dの両方の表現を統合し、補完的なスライスレベルとボリューム情報をキャプチャする。
PHAROS-AIF-MIHベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-16T05:24:10Z) - Click, Predict, Trust: Clinician-in-the-Loop AI Segmentation for Lung Cancer CT-Based Prognosis within the Knowledge-to-Action Framework [0.7340285482623061]
肺がんは依然としてがん死亡の主な原因であり、CT像はスクリーニング、予後、治療の中心となっている。
ディープラーニング(DL)は自動化を提供するが、臨床導入の障壁に直面している。
本研究は, 診断精度, 臨床信頼度を高めるために, ループ内DLパイプラインを開発した。
論文 参考訳(メタデータ) (2025-10-19T23:02:43Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement [1.6355783973385114]
多視点認識知識強化型TansfoRmer(MvKeTR)
複数の解剖学的ビューから診断情報を効果的に合成するために、ビューアウェアのMVPAを提案する。
クエリボリュームに基づいて、最も類似したレポートを取得するために、Cross-Modal Knowledge Enhancer (CMKE) が考案されている。
論文 参考訳(メタデータ) (2024-11-27T12:58:23Z) - 3D-CT-GPT: Generating 3D Radiology Reports through Integration of Large Vision-Language Models [51.855377054763345]
本稿では,VQAに基づく医用視覚言語モデルである3D-CT-GPTについて紹介する。
パブリックデータセットとプライベートデータセットの両方の実験により、3D-CT-GPTはレポートの正確さと品質という点で既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-09-28T12:31:07Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Self-distilled Masked Attention guided masked image modeling with noise Regularized Teacher (SMART) for medical image analysis [6.712251433139412]
注意誘導型マスク画像モデリング(MIM)を用いた事前学習型視覚変換器(ViT)は、自然画像解析において下流の精度を向上することを示した。
我々は,MIMの選択的マスキングを誘導するために,雑音の多い運動量更新教師を組み合わせた共蒸留スウィントランスを開発した。
論文 参考訳(メタデータ) (2023-10-02T13:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。