論文の概要: Agentic large language models improve retrieval-based radiology question answering
- arxiv url: http://arxiv.org/abs/2508.00743v2
- Date: Sun, 24 Aug 2025 14:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.805623
- Title: Agentic large language models improve retrieval-based radiology question answering
- Title(参考訳): エージェント型大規模言語モデルによる検索に基づく放射線学的質問応答の改善
- Authors: Sebastian Wind, Jeta Sopa, Daniel Truhn, Mahshad Lotfinia, Tri-Thien Nguyen, Keno Bressem, Lisa Adams, Mirabela Rusu, Harald Köstler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を自律的に分解可能なエージェントRAGフレームワークを提案する。
LLMはRadiopaedia.orgから標的臨床証拠を反復的に回収し、証拠に基づく反応を動的に合成する。
エージェント検索により、ゼロショットプロンプトや従来のオンラインRAGよりも平均診断精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 4.208637377704778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical decision-making in radiology increasingly benefits from artificial intelligence (AI), particularly through large language models (LLMs). However, traditional retrieval-augmented generation (RAG) systems for radiology question answering (QA) typically rely on single-step retrieval, limiting their ability to handle complex clinical reasoning tasks. Here we propose an agentic RAG framework enabling LLMs to autonomously decompose radiology questions, iteratively retrieve targeted clinical evidence from Radiopaedia.org, and dynamically synthesize evidence-based responses. We evaluated 25 LLMs spanning diverse architectures, parameter scales (0.5B to >670B), and training paradigms (general-purpose, reasoning-optimized, clinically fine-tuned), using 104 expert-curated radiology questions from previously established RSNA-RadioQA and ExtendedQA datasets. To assess generalizability, we additionally tested on an unseen internal dataset of 65 real-world radiology board examination questions. Agentic retrieval significantly improved mean diagnostic accuracy over zero-shot prompting and conventional online RAG. The greatest gains occurred in small-scale models, while very large models (>200B parameters) demonstrated minimal changes (<2% improvement). Additionally, agentic retrieval reduced hallucinations (mean 9.4%) and retrieved clinically relevant context in 46% of cases, substantially aiding factual grounding. Even clinically fine-tuned models showed gains from agentic retrieval (e.g., MedGemma-27B), indicating that retrieval remains beneficial despite embedded domain knowledge. These results highlight the potential of agentic frameworks to enhance factuality and diagnostic accuracy in radiology QA, warranting future studies to validate their clinical utility. All datasets, code, and the full agentic framework are publicly available to support open research and clinical translation.
- Abstract(参考訳): 放射線学における臨床的意思決定は、人工知能(AI)、特に大きな言語モデル(LLM)によってますます恩恵を受けている。
しかしながら、放射線学的質問応答(QA)のための従来の検索強化世代(RAG)システムは、通常、単一のステップの検索に依存し、複雑な臨床推論タスクを扱う能力を制限する。
本稿では,LSMが放射線学の質問を自律的に分解し,Radiopaedia.orgから標的とする臨床証拠を反復的に回収し,エビデンスに基づく反応を動的に合成することを可能にするエージェントRAGフレームワークを提案する。
これまでに確立されたRSNA-RadioQAデータセットと拡張QAデータセットを用いて,25のLCM,パラメータスケール(0.5Bから670B),トレーニングパラダイム(汎用的,推論最適化,臨床的微調整)を評価した。
一般化性を評価するため,65件の実地放射線検査問合せの未確認内部データセットを検証した。
エージェント検索により、ゼロショットプロンプトや従来のオンラインRAGよりも平均診断精度が大幅に向上した。
大規模なモデル(>200Bパラメータ)では最小限の変更((<2%改善)が見られた。
さらに、エージェント検索は幻覚(平均9.4%)を減らし、臨床的に関連のある文脈を46%の症例で回収し、事実上の根拠づけを助長した。
臨床的に微調整されたモデルでさえ、エージェント検索(例:MedGemma-27B)の結果が得られ、組込みドメイン知識にもかかわらず、検索が有益であることが示唆された。
これらの結果は, 放射線診断における事実性および診断精度を高めるためのエージェント・フレームワークの可能性を強調し, 今後の臨床応用の検証を保証している。
すべてのデータセット、コード、フルエージェントフレームワークが公開されており、オープンな研究と臨床翻訳をサポートする。
関連論文リスト
- Handcrafted vs. Deep Radiomics vs. Fusion vs. Deep Learning: A Comprehensive Review of Machine Learning -Based Cancer Outcome Prediction in PET and SPECT Imaging [0.7573820776203027]
この体系的なレビューは、2020年から2025年にかけて発行された226の研究を分析し、結果予測のためにPETまたはSPECTイメージングに機械学習を適用した。
PETベースの研究は、一般的にSPECTを用いた場合よりも優れており、おそらくは空間分解能と感度が高いためである。
一般的な制限としては、階級不均衡の不十分な扱い、データ不足、人口の多様性の低さがあった。
論文 参考訳(メタデータ) (2025-07-21T21:03:12Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - AI-assisted prostate cancer detection and localisation on biparametric MR by classifying radiologist-positives [5.75804178993065]
本稿では,がん診断の総合的精度を向上させるためのディープラーニングモデルを提案する。
一つのボクセルレベルの分類モデルを構築し、単純なパーセンテージ閾値で正のケースを判定する。
2つの臨床データから得られた実験から,提案手法が診断精度を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-30T14:59:57Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - RadioRAG: Online Retrieval-augmented Generation for Radiology Question Answering [1.7618750189510493]
大規模言語モデル(LLM)は、しばしば静的トレーニングデータセットに基づいて時代遅れまたは不正確な情報を生成する。
Retrieval-augmented Generation (RAG)は、外部データソースを統合することでこれを緩和する。
RAG(Radio-to-end framework, 無線RAG)は, 信頼できる無線オンラインソースからデータをリアルタイムに取得するフレームワークである。
論文 参考訳(メタデータ) (2024-07-22T13:29:56Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。