論文の概要: GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation
- arxiv url: http://arxiv.org/abs/2503.05347v2
- Date: Mon, 04 Aug 2025 22:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:33.818897
- Title: GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation
- Title(参考訳): GEMAスコア:放射線診断のための粒界説明可能なマルチエージェント・スコア・フレームワーク
- Authors: Zhenxuan Zhang, Kinhei Lee, Peiyuan Jing, Weihang Deng, Huichi Zhou, Zihao Jin, Jiahao Huang, Zhifan Gao, Dominic C Marshall, Yingying Fang, Guang Yang,
- Abstract要約: Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
- 参考スコア(独自算出の注目度): 7.838068874909676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic medical report generation has the potential to support clinical diagnosis, reduce the workload of radiologists, and demonstrate potential for enhancing diagnostic consistency. However, current evaluation metrics often fail to reflect the clinical reliability of generated reports. Early overlap-based methods focus on textual matches between predicted and ground-truth entities but miss fine-grained clinical details (e.g., anatomical location, severity). Some diagnostic metrics are limited by fixed vocabularies or templates, reducing their ability to capture diverse clinical expressions. LLM-based approaches further lack interpretable reasoning steps, making it hard to assess or trust their behavior in safety-critical settings. These limitations hinder the comprehensive assessment of the reliability of generated reports and pose risks in their selection for clinical use. Therefore, we propose a Granular Explainable Multi-Agent Score (GEMA-Score) in this paper, which conducts both objective quantification and subjective evaluation through a large language model-based multi-agent workflow. Our GEMA-Score parses structured reports and employs stable calculations through interactive exchanges of information among agents to assess disease diagnosis, location, severity, and uncertainty. Additionally, an LLM-based scoring agent evaluates completeness, readability, and clinical terminology while providing explanatory feedback. Extensive experiments validate that GEMA-Score achieves the highest correlation with human expert evaluations on a public dataset, demonstrating its effectiveness in clinical scoring (Kendall coefficient = $0.69$ for ReXVal dataset and Kendall coefficient = $0.45$ for RadEvalX dataset). The anonymous project demo is available at: https://github.com/Zhenxuan-Zhang/GEMA_score.
- Abstract(参考訳): 自動医療報告生成は、臨床診断をサポートし、放射線医の作業量を減らし、診断整合性を高める可能性を示す可能性がある。
しかし、現在の評価基準は、しばしば、生成された報告の臨床的信頼性を反映しない。
初期のオーバーラップベースの手法は、予測された実体と地上の真実のテキストマッチングに焦点を当てていたが、詳細な臨床詳細(例えば、解剖学的位置、重症度)を見逃した。
いくつかの診断指標は、固定された語彙やテンプレートによって制限され、多様な臨床的表現を捉える能力が低下する。
LLMベースのアプローチでは、解釈可能な推論手順が欠如しており、安全クリティカルな環境での行動の評価や信頼性が困難である。
これらの制限は、生成されたレポートの信頼性を総合的に評価することを妨げる。
そこで本稿では,大規模言語モデルに基づくマルチエージェントワークフローを用いて,客観的な定量化と主観評価を行うグラニュラ記述可能マルチエージェントスコア(GEMA-Score)を提案する。
我々のGEMA-Scoreは、構造化されたレポートを解析し、エージェント間の情報交換を通じて安定した計算を用いて、疾患の診断、位置、重症度、不確実性を評価する。
さらに、LCMベースのスコアリングエージェントは、説明的フィードバックを提供しながら、完全性、可読性、臨床用語を評価する。
大規模な実験により、GEMA-Scoreは、公開データセット上でのヒトの専門家評価と最も高い相関を達成し、その臨床的スコアリングの有効性を示す(ケンドール係数は、ReXValデータセットでは、0.69ドル、ケンドール係数は、RadEvalXデータセットでは、0.45ドル)。
匿名プロジェクトのデモは、https://github.com/Zhenxuan-Zhang/GEMA_score.comで公開されている。
関連論文リスト
- Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - S-RRG-Bench: Structured Radiology Report Generation with Fine-Grained Evaluation Framework [39.542375803362965]
胸部X線などの診断画像のための放射線診断レポート生成(RRG)は、臨床とAIの両方において重要な役割を担っている。
従来のフリーテキストレポートは冗長性と一貫性のない言語に悩まされ、臨床的に重要な詳細の抽出が複雑になる。
本稿では、データセット構築、モデルトレーニング、新しい評価フレームワークの導入を含む、S-RRGに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:49:41Z) - CRG Score: A Distribution-Aware Clinical Metric for Radiology Report Generation [6.930435788495898]
CRGスコア(CRG Score, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア)
ラベル分布に基づく罰則のバランスをとることにより、より公平で堅牢な評価を可能にし、臨床に整合した報酬機能として機能する。
論文 参考訳(メタデータ) (2025-05-22T17:02:28Z) - CLEAR: A Clinically-Grounded Tabular Framework for Radiology Report Evaluation [19.416198842242856]
専門ラベルを用いた臨床評価フレームワークと放射線診断報告評価のための属性レベル比較(CLEAR)について紹介する。
CLEARは、報告書が医療状況の有無を正確に特定できるかどうかを調べる。
CLEARの臨床的アライメントを測定するため,MIMIC-CXRから得られた100個の胸部X線所見のデータセットであるCLEAR-Benchを開発した。
論文 参考訳(メタデータ) (2025-05-22T07:32:12Z) - EchoQA: A Large Collection of Instruction Tuning Data for Echocardiogram Reports [0.0]
集中治療のための医療情報マートから得られたエコー心電図を用いた質問応答(QA)データセットについて紹介する。
このデータセットは、心疾患とその重症度に対処する771,244のQAペアからなる、心疾患のQAシステムを強化するために特別に設計された。
我々は,ゼロショット評価のためのオープンソースおよびバイオメディカル固有モデル,ゼロショット評価のためのクローズソースモデルを含む大規模言語モデル(LLM)を比較した。
論文 参考訳(メタデータ) (2025-03-04T07:45:45Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Towards Interpretable Radiology Report Generation via Concept Bottlenecks using a Multi-Agentic RAG [1.9374282535132377]
本研究では, レポート生成のための概念ボトルネックモデル(CBM)とマルチエージェント検索・拡張生成システム(RAG)を用いて, 胸部X線分類(CXR)の解釈可能性を向上させる。
視覚特徴と臨床概念の関係をモデル化することにより,多エージェントRAGシステムで放射線診断レポートを生成するための解釈可能な概念ベクトルを作成する。
論文 参考訳(メタデータ) (2024-12-20T17:33:50Z) - AutoRG-Brain: Grounded Report Generation for Brain MRI [57.22149878985624]
放射線学者は、大量の画像を日々のベースで解釈し、対応するレポートを生成する責任を負う。
この要求される作業負荷は、人間のエラーのリスクを高め、治療の遅れ、医療費の増加、収益損失、運用上の不効率につながる可能性がある。
地盤自動報告生成(AutoRG)に関する一連の研究を開始した。
このシステムは、脳の構造の明細化、異常の局所化、そしてよく組織化された発見の生成をサポートする。
論文 参考訳(メタデータ) (2024-07-23T17:50:00Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - The Impact of Auxiliary Patient Data on Automated Chest X-Ray Report Generation and How to Incorporate It [12.61239008314719]
本研究は,胸部X線自動レポート生成のための多モーダル言語モデルへの多様な患者データソースの統合について検討する。
MIMIC-CXRおよびMIMIC-IV-EDデータセットを用いて, 診断精度を高めるために, バイタルサイン, 医薬, 臨床歴などの詳細な患者情報を組み込んだ。
論文 参考訳(メタデータ) (2024-06-19T03:25:31Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - MRScore: Evaluating Radiology Report Generation with LLM-based Reward System [39.54237580336297]
本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標 MRScore を紹介する。
この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。
実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-27T04:42:45Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。
DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Supervised Machine Learning Algorithm for Detecting Consistency between
Reported Findings and the Conclusions of Mammography Reports [66.89977257992568]
マンモグラフィーは患者の病態の診断を文書化する。
多くの報告は非標準用語(非BI-RADS記述子)と不完全文を含んでいる。
本研究の目的は,報告された結論と,報告された放射線学の知見に基づいて期待される結果とを比較して,そのような不一致を検出するツールを開発することである。
論文 参考訳(メタデータ) (2022-02-28T08:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。