論文の概要: GEMA-Score: Granular Explainable Multi-Agent Score for Radiology Report Evaluation
- arxiv url: http://arxiv.org/abs/2503.05347v1
- Date: Fri, 07 Mar 2025 11:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:21:51.499145
- Title: GEMA-Score: Granular Explainable Multi-Agent Score for Radiology Report Evaluation
- Title(参考訳): GEMAスコア:放射線診断のための粒状説明可能なマルチエージェントスコア
- Authors: Zhenxuan Zhang, Kinhei Lee, Weihang Deng, Huichi Zhou, Zihao Jin, Jiahao Huang, Zhifan Gao, Dominic C Marshall, Yingying Fang, Guang Yang,
- Abstract要約: 本稿では,粒状説明可能マルチエージェントスコア(GEMA-Score)を提案する。
GEMA-Scoreは大規模言語モデルに基づくマルチエージェントワークフローを通じて客観的定量化と主観評価を行う。
実験により、GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成できることが示された。
- 参考スコア(独自算出の注目度): 8.071354543390274
- License:
- Abstract: Automatic medical report generation supports clinical diagnosis, reduces the workload of radiologists, and holds the promise of improving diagnosis consistency. However, existing evaluation metrics primarily assess the accuracy of key medical information coverage in generated reports compared to human-written reports, while overlooking crucial details such as the location and certainty of reported abnormalities. These limitations hinder the comprehensive assessment of the reliability of generated reports and pose risks in their selection for clinical use. Therefore, we propose a Granular Explainable Multi-Agent Score (GEMA-Score) in this paper, which conducts both objective quantification and subjective evaluation through a large language model-based multi-agent workflow. Our GEMA-Score parses structured reports and employs NER-F1 calculations through interactive exchanges of information among agents to assess disease diagnosis, location, severity, and uncertainty. Additionally, an LLM-based scoring agent evaluates completeness, readability, and clinical terminology while providing explanatory feedback. Extensive experiments validate that GEMA-Score achieves the highest correlation with human expert evaluations on a public dataset, demonstrating its effectiveness in clinical scoring (Kendall coefficient = 0.70 for Rexval dataset and Kendall coefficient = 0.54 for RadEvalX dataset). The anonymous project demo is available at: https://github.com/Zhenxuan-Zhang/GEMA_score.
- Abstract(参考訳): 自動医療報告生成は、臨床診断をサポートし、放射線医の作業量を削減し、診断整合性を改善するという約束を守る。
しかし、既存の評価指標は、人手による報告と比較して、生成したレポートにおける重要な医療情報カバレッジの正確さを主に評価する一方で、報告された異常の位置や確実性といった重要な詳細を過小評価している。
これらの制限は、生成されたレポートの信頼性を総合的に評価することを妨げる。
そこで本稿では,大規模言語モデルに基づくマルチエージェントワークフローを用いて,客観的な定量化と主観評価を行うグラニュラ記述可能マルチエージェントスコア(GEMA-Score)を提案する。
我々のGEMA-Scoreは構造化されたレポートを解析し、エージェント間の情報交換を通じてNER-F1計算を用いて、疾患の診断、位置、重症度、不確実性を評価する。
さらに、LCMベースのスコアリングエージェントは、説明的フィードバックを提供しながら、完全性、可読性、臨床用語を評価する。
総合的な実験により、GEMA-Scoreは、公開データセット上でのヒトの専門家評価と最も高い相関を達成し、その臨床的スコアリングの有効性を示す(ケンドール係数はレックスバルデータセットで0.70、ケンドール係数は0.54)。
匿名プロジェクトのデモは、https://github.com/Zhenxuan-Zhang/GEMA_score.comで公開されている。
関連論文リスト
- Towards Interpretable Radiology Report Generation via Concept Bottlenecks using a Multi-Agentic RAG [1.9374282535132377]
本研究では, レポート生成のための概念ボトルネックモデル(CBM)とマルチエージェント検索・拡張生成システム(RAG)を用いて, 胸部X線分類(CXR)の解釈可能性を向上させる。
視覚特徴と臨床概念の関係をモデル化することにより,多エージェントRAGシステムで放射線診断レポートを生成するための解釈可能な概念ベクトルを作成する。
論文 参考訳(メタデータ) (2024-12-20T17:33:50Z) - ReXamine-Global: A Framework for Uncovering Inconsistencies in Radiology Report Generation Metrics [3.028298624225796]
ReXamine-Globalは、さまざまな書き込みスタイルと患者集団のメトリクスをテストするフレームワークである。
本研究では,ReXamine-Globalを7つの確立されたレポート評価指標に適用し,その一般化可能性の重大なギャップを明らかにする。
論文 参考訳(メタデータ) (2024-08-29T02:03:05Z) - AutoRG-Brain: Grounded Report Generation for Brain MRI [57.22149878985624]
放射線学者は、大量の画像を日々のベースで解釈し、対応するレポートを生成する責任を負う。
この要求される作業負荷は、人間のエラーのリスクを高め、治療の遅れ、医療費の増加、収益損失、運用上の不効率につながる可能性がある。
地盤自動報告生成(AutoRG)に関する一連の研究を開始した。
このシステムは、脳の構造の明細化、異常の局所化、そしてよく組織化された発見の生成をサポートする。
論文 参考訳(メタデータ) (2024-07-23T17:50:00Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - The Impact of Auxiliary Patient Data on Automated Chest X-Ray Report Generation and How to Incorporate It [12.61239008314719]
本研究は,胸部X線自動レポート生成のための多モーダル言語モデルへの多様な患者データソースの統合について検討する。
MIMIC-CXRおよびMIMIC-IV-EDデータセットを用いて, 診断精度を高めるために, バイタルサイン, 医薬, 臨床歴などの詳細な患者情報を組み込んだ。
論文 参考訳(メタデータ) (2024-06-19T03:25:31Z) - MRScore: Evaluating Radiology Report Generation with LLM-based Reward System [39.54237580336297]
本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標 MRScore を紹介する。
この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。
実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-27T04:42:45Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Supervised Machine Learning Algorithm for Detecting Consistency between
Reported Findings and the Conclusions of Mammography Reports [66.89977257992568]
マンモグラフィーは患者の病態の診断を文書化する。
多くの報告は非標準用語(非BI-RADS記述子)と不完全文を含んでいる。
本研究の目的は,報告された結論と,報告された放射線学の知見に基づいて期待される結果とを比較して,そのような不一致を検出するツールを開発することである。
論文 参考訳(メタデータ) (2022-02-28T08:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。