論文の概要: Medical AI Consensus: A Multi-Agent Framework for Radiology Report Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2509.17353v1
- Date: Mon, 22 Sep 2025 04:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.230125
- Title: Medical AI Consensus: A Multi-Agent Framework for Radiology Report Generation and Evaluation
- Title(参考訳): Medical AI Consensus: 放射線診断レポートの生成と評価のためのマルチエージェントフレームワーク
- Authors: Ahmed T. Elboardy, Ghada Khoriba, Essam A. Rashed,
- Abstract要約: 放射線学のエコシステムにおけるマルチモーダルな臨床推論のためのベンチマークおよび評価環境として機能するマルチエージェント強化学習フレームワークを提案する。
提案フレームワークは,画像解析,特徴抽出,レポート生成,レビュー,評価を担当する10の特殊エージェントからなるモジュールアーキテクチャにおいて,大規模言語モデル(LLM)と大規模ビジョンモデル(LVM)を統合する。
- 参考スコア(独自算出の注目度): 0.2039123720459736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating radiology report generation poses a dual challenge: building clinically reliable systems and designing rigorous evaluation protocols. We introduce a multi-agent reinforcement learning framework that serves as both a benchmark and evaluation environment for multimodal clinical reasoning in the radiology ecosystem. The proposed framework integrates large language models (LLMs) and large vision models (LVMs) within a modular architecture composed of ten specialized agents responsible for image analysis, feature extraction, report generation, review, and evaluation. This design enables fine-grained assessment at both the agent level (e.g., detection and segmentation accuracy) and the consensus level (e.g., report quality and clinical relevance). We demonstrate an implementation using chatGPT-4o on public radiology datasets, where LLMs act as evaluators alongside medical radiologist feedback. By aligning evaluation protocols with the LLM development lifecycle, including pretraining, finetuning, alignment, and deployment, the proposed benchmark establishes a path toward trustworthy deviance-based radiology report generation.
- Abstract(参考訳): 放射線学レポートの自動生成は、臨床的に信頼性の高いシステムを構築し、厳密な評価プロトコルを設計する、という2つの課題を提起する。
放射線学のエコシステムにおけるマルチモーダルな臨床推論のためのベンチマークおよび評価環境として機能するマルチエージェント強化学習フレームワークを提案する。
提案フレームワークは,画像解析,特徴抽出,レポート生成,レビュー,評価を担当する10の特殊エージェントからなるモジュールアーキテクチャにおいて,大規模言語モデル(LLM)と大規模ビジョンモデル(LVM)を統合する。
この設計により、エージェントレベル(例えば、検出とセグメンテーションの精度)とコンセンサスレベル(例えば、報告品質と臨床関連性)の両方でのきめ細かい評価が可能となる。
公衆放射線学データセットにchatGPT-4oを用いた実装を実演し,LLMが医療放射線技師のフィードバックとともに評価者として機能することを示した。
評価プロトコルを,事前訓練,微調整,アライメント,展開を含むLCM開発ライフサイクルと整合させることで,信頼性の高い逸脱に基づく放射線学レポート生成への道筋を確立する。
関連論文リスト
- Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - CBM-RAG: Demonstrating Enhanced Interpretability in Radiology Report Generation with Multi-Agent RAG and Concept Bottleneck Models [1.7042756021131187]
本稿では,CBM(Concept Bottleneck Models)とRAG(Multi-Agent Retrieval-Augmented Generation)システムを組み合わせた自動放射線学レポート生成フレームワークを提案する。
CBMは胸部X線の特徴を人間の理解できない臨床概念にマッピングし、透明な疾患分類を可能にする。
RAGシステムはマルチエージェントのコラボレーションと外部知識を統合し、文脈的にリッチなエビデンスベースのレポートを生成する。
論文 参考訳(メタデータ) (2025-04-29T16:14:55Z) - Towards Interpretable Radiology Report Generation via Concept Bottlenecks using a Multi-Agentic RAG [1.9374282535132377]
本研究では, レポート生成のための概念ボトルネックモデル(CBM)とマルチエージェント検索・拡張生成システム(RAG)を用いて, 胸部X線分類(CXR)の解釈可能性を向上させる。
視覚特徴と臨床概念の関係をモデル化することにより,多エージェントRAGシステムで放射線診断レポートを生成するための解釈可能な概念ベクトルを作成する。
論文 参考訳(メタデータ) (2024-12-20T17:33:50Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation [37.20505633019773]
生成された放射線学レポートを評価することは、放射線学AIの開発に不可欠である。
本研究では,大規模言語モデル (LLM) を用いた新しい評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:02:12Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。