論文の概要: Agentic large language models improve retrieval-based radiology question answering
- arxiv url: http://arxiv.org/abs/2508.00743v1
- Date: Fri, 01 Aug 2025 16:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.947059
- Title: Agentic large language models improve retrieval-based radiology question answering
- Title(参考訳): エージェント型大規模言語モデルによる検索に基づく放射線学的質問応答の改善
- Authors: Sebastian Wind, Jeta Sopa, Daniel Truhn, Mahshad Lotfinia, Tri-Thien Nguyen, Keno Bressem, Lisa Adams, Mirabela Rusu, Harald Köstler, Gerhard Wellein, Andreas Maier, Soroosh Tayebi Arasteh,
- Abstract要約: エージェント検索はゼロショットプロンプトよりも平均診断精度が有意に向上した。
最大の利益は中型モデルで発生した。
臨床的に微調整されたモデルでさえ、有意義な改善が見られた。
- 参考スコア(独自算出の注目度): 4.340742745938289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical decision-making in radiology increasingly benefits from artificial intelligence (AI), particularly through large language models (LLMs). However, traditional retrieval-augmented generation (RAG) systems for radiology question answering (QA) typically rely on single-step retrieval, limiting their ability to handle complex clinical reasoning tasks. Here we propose an agentic RAG framework enabling LLMs to autonomously decompose radiology questions, iteratively retrieve targeted clinical evidence from Radiopaedia, and dynamically synthesize evidence-based responses. We evaluated 24 LLMs spanning diverse architectures, parameter scales (0.5B to >670B), and training paradigms (general-purpose, reasoning-optimized, clinically fine-tuned), using 104 expert-curated radiology questions from previously established RSNA-RadioQA and ExtendedQA datasets. Agentic retrieval significantly improved mean diagnostic accuracy over zero-shot prompting (73% vs. 64%; P<0.001) and conventional online RAG (73% vs. 68%; P<0.001). The greatest gains occurred in mid-sized models (e.g., Mistral Large improved from 72% to 81%) and small-scale models (e.g., Qwen 2.5-7B improved from 55% to 71%), while very large models (>200B parameters) demonstrated minimal changes (<2% improvement). Additionally, agentic retrieval reduced hallucinations (mean 9.4%) and retrieved clinically relevant context in 46% of cases, substantially aiding factual grounding. Even clinically fine-tuned models exhibited meaningful improvements (e.g., MedGemma-27B improved from 71% to 81%), indicating complementary roles of retrieval and fine-tuning. These results highlight the potential of agentic frameworks to enhance factuality and diagnostic accuracy in radiology QA, particularly among mid-sized LLMs, warranting future studies to validate their clinical utility.
- Abstract(参考訳): 放射線学における臨床的意思決定は、人工知能(AI)、特に大きな言語モデル(LLM)によってますます恩恵を受けている。
しかしながら、放射線学的質問応答(QA)のための従来の検索強化世代(RAG)システムは、通常、単一のステップの検索に依存し、複雑な臨床推論タスクを扱う能力を制限する。
本稿では,LSMが放射線学の質問を自律的に分解し,対象とする臨床証拠をRadiopaediaから反復的に回収し,エビデンスに基づく反応を動的に合成することを可能にするエージェントRAGフレームワークを提案する。
これまでに確立されたRSNA-RadioQAデータセットと拡張QAデータセットを用いて, 多様なアーキテクチャ, パラメータスケール (0.5Bから670B) , トレーニングパラダイム (汎用的, 推論最適化, 臨床的微調整) にまたがる24のLSMについて, 専門的な放射線学の質問紙を用いて検討した。
エージェント検索により、ゼロショットプロンプト(73%対64%、P<0.001)と従来のオンラインRAG(73%対68%、P<0.001)よりも平均診断精度が有意に向上した。
中型モデル(例:Mistral Largeが72%から81%に改善)と小型モデル(例:Qwen 2.5-7Bが55%から71%に改善)では、非常に大きなモデル(>200Bパラメータ)では、最小限の変更(例:Qwen 2.5-7Bが55%から71%に改善)が見られた。
さらに、エージェント検索は幻覚(平均9.4%)を減らし、臨床的に関連のある文脈を46%の症例で回収し、事実上の根拠づけを助長した。
MedGemma-27Bは71%から81%に改善し,検索と微調整の相補的な役割を示した。
これらの結果は, 放射線学におけるQAの事実性および診断精度を高めるためのエージェント・フレームワークの可能性, 特に中規模のLSMでは, 臨床効果の検証を保証している。
関連論文リスト
- Handcrafted vs. Deep Radiomics vs. Fusion vs. Deep Learning: A Comprehensive Review of Machine Learning -Based Cancer Outcome Prediction in PET and SPECT Imaging [0.7573820776203027]
この体系的なレビューは、2020年から2025年にかけて発行された226の研究を分析し、結果予測のためにPETまたはSPECTイメージングに機械学習を適用した。
PETベースの研究は、一般的にSPECTを用いた場合よりも優れており、おそらくは空間分解能と感度が高いためである。
一般的な制限としては、階級不均衡の不十分な扱い、データ不足、人口の多様性の低さがあった。
論文 参考訳(メタデータ) (2025-07-21T21:03:12Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - AI-assisted prostate cancer detection and localisation on biparametric MR by classifying radiologist-positives [5.75804178993065]
本稿では,がん診断の総合的精度を向上させるためのディープラーニングモデルを提案する。
一つのボクセルレベルの分類モデルを構築し、単純なパーセンテージ閾値で正のケースを判定する。
2つの臨床データから得られた実験から,提案手法が診断精度を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-30T14:59:57Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。
Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。
従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文 参考訳(メタデータ) (2024-08-13T01:30:03Z) - RadioRAG: Online Retrieval-augmented Generation for Radiology Question Answering [1.7618750189510493]
大規模言語モデル(LLM)は、しばしば静的トレーニングデータセットに基づいて時代遅れまたは不正確な情報を生成する。
Retrieval-augmented Generation (RAG)は、外部データソースを統合することでこれを緩和する。
RAG(Radio-to-end framework, 無線RAG)は, 信頼できる無線オンラインソースからデータをリアルタイムに取得するフレームワークである。
論文 参考訳(メタデータ) (2024-07-22T13:29:56Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。