論文の概要: CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation
- arxiv url: http://arxiv.org/abs/2603.06183v1
- Date: Fri, 06 Mar 2026 11:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.5831
- Title: CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation
- Title(参考訳): CRIMSON : LLM-based Metric for Generative Radiology Report Evaluation
- Authors: Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar,
- Abstract要約: CRIMSONは胸部X線レポート生成のための臨床基盤評価フレームワークである。
エラーを、誤った発見、不明な発見、8つの属性レベルのエラーを含む包括的な分類に分類する。
CRIMSONは、6人の放射線技師によって注釈された臨床的に重要なエラー数と強く一致して検証される。
- 参考スコア(独自算出の注目度): 2.61152955442649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CRIMSON, a clinically grounded evaluation framework for chest X-ray report generation that assesses reports based on diagnostic correctness, contextual relevance, and patient safety. Unlike prior metrics, CRIMSON incorporates full clinical context, including patient age, indication, and guideline-based decision rules, and prevents normal or clinically insignificant findings from exerting disproportionate influence on the overall score. The framework categorizes errors into a comprehensive taxonomy covering false findings, missing findings, and eight attribute-level errors (e.g., location, severity, measurement, and diagnostic overinterpretation). Each finding is assigned a clinical significance level (urgent, actionable non-urgent, non-actionable, or expected/benign), based on a guideline developed in collaboration with attending cardiothoracic radiologists, enabling severity-aware weighting that prioritizes clinically consequential mistakes over benign discrepancies. CRIMSON is validated through strong alignment with clinically significant error counts annotated by six board-certified radiologists in ReXVal (Kendalls tau = 0.61-0.71; Pearsons r = 0.71-0.84), and through two additional benchmarks that we introduce. In RadJudge, a targeted suite of clinically challenging pass-fail scenarios, CRIMSON shows consistent agreement with expert judgment. In RadPref, a larger radiologist preference benchmark of over 100 pairwise cases with structured error categorization, severity modeling, and 1-5 overall quality ratings from three cardiothoracic radiologists, CRIMSON achieves the strongest alignment with radiologist preferences. We release the metric, the evaluation benchmarks, RadJudge and RadPref, and a fine-tuned MedGemma model to enable reproducible evaluation of report generation, all available at https://github.com/rajpurkarlab/CRIMSON.
- Abstract(参考訳): CRIMSONは, 診断精度, コンテキスト関連性, 患者の安全性に基づいて報告を評価する胸部X線レポート作成のための臨床基礎的評価フレームワークである。
以前の指標とは異なり、CRIMSONは、患者の年齢、指示、ガイドラインに基づく決定規則を含む完全な臨床コンテキストを取り入れており、正常または臨床的に重要な発見が全体的なスコアに不均等な影響を与えるのを防ぐ。
このフレームワークはエラーを、誤った発見、不明な発見、属性レベルの8つのエラー(例えば、位置、重大度、測定、診断過剰解釈)を含む包括的な分類に分類する。
それぞれの発見には、臨床上の重要なレベル(即効性、作用性、非作用性、または期待/良性)が割り当てられており、心胸部放射線科医と共同で開発されたガイドラインに基づいて、臨床的に連続した誤りを良性差よりも優先する重み付けを可能にする。
CRIMSONは、ReXVal (Kendalls tau = 0.61-0.71; Pearsons r = 0.71-0.84) の6人の放射線学者によって注釈付けされた臨床的に重要なエラー数と強く一致し、さらに2つの追加ベンチマークによって検証される。
臨床的に困難なパスフェイルシナリオを対象とするRadJudgeでは、CRIMSONが専門家の判断と一貫した一致を示している。
RadPrefでは、構造的エラー分類、重度モデリング、および3人の心胸部放射線科医による1-5の総合的な品質評価を含む100以上のペアワイドの放射線科医の選好ベンチマークが実施され、CRIMSONは放射線科医の選好と最強の一致を達成している。
我々は、測定値、評価ベンチマーク、RadJudgeとRadPref、および微調整されたMedGemmaモデルをリリースし、レポート生成の再現可能な評価を可能にする。
関連論文リスト
- Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores [37.16761198532088]
放射線学報告のための新しい評価フレームワークRadReasonを紹介する。
6つの臨床的に定義されたエラータイプにまたがって、きめ細かいサブスコアを出力する。
また、スコアの背景にある根拠を説明する人間可読な正当性も生み出す。
論文 参考訳(メタデータ) (2025-08-21T11:34:30Z) - CLEAR: A Clinically-Grounded Tabular Framework for Radiology Report Evaluation [14.580143601537957]
専門ラベルを用いた臨床評価フレームワークと放射線診断報告評価のための属性レベル比較(CLEAR)について紹介する。
CLEARは、報告書が医療状況の有無を正確に特定できるかどうかを調べる。
CLEARの臨床的アライメントを測定するため,MIMIC-CXRから得られた100個の胸部X線所見のデータセットであるCLEAR-Benchを開発した。
論文 参考訳(メタデータ) (2025-05-22T07:32:12Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。