論文の概要: Ran Score: a LLM-based Evaluation Score for Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2603.22935v1
- Date: Tue, 24 Mar 2026 08:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.380869
- Title: Ran Score: a LLM-based Evaluation Score for Radiology Report Generation
- Title(参考訳): LLMを用いた放射線診断用評価スコアRan Score
- Authors: Ran Zhang, Yucong Lin, Zhaoli Su, Bowen Liu, Danni Ai, Tianyu Fu, Deqiang Xiao, Jingfan Fan, Yuanyuan Wang, Mingwei Gao, Yuwan Hu, Shuya Gao, Jingtao Li, Jian Yang, Hong Song, Hongliang Sun,
- Abstract要約: 我々は,ヒトの専門知識と大規模言語モデルを組み合わせた臨床用ガイドフレームワークを開発した。
臨床医が指導するプロンプト最適化は,放射線技師による基準基準との整合性を向上することを示す。
- 参考スコア(独自算出の注目度): 28.574749773136162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chest X-ray report generation and automated evaluation are limited by poor recognition of low-prevalence abnormalities and inadequate handling of clinically important language, including negation and ambiguity. We develop a clinician-guided framework combining human expertise and large language models for multi-label finding extraction from free-text chest X-ray reports and use it to define Ran Score, a finding-level metric for report evaluation. Using three non-overlapping MIMIC-CXR-EN cohorts from a public chest X-ray dataset and an independent ChestX-CN validation cohort, we optimize prompts, establish radiologist-derived reference labels and evaluate report generation models. The optimized framework improves the macro-averaged score from 0.753 to 0.956 on the MIMIC-CXR-EN development cohort, exceeds the CheXbert benchmark by 15.7 percentage points on directly comparable labels, and shows robust generalization on the ChestX-CN validation cohort. Here we show that clinician-guided prompt optimization improves agreement with a radiologist-derived reference standard and that Ran Score enables finding-level evaluation of report fidelity, particularly for low-prevalence abnormalities.
- Abstract(参考訳): 胸部X線レポートの生成と自動評価は、低頻度異常の認識不良と否定や曖昧さを含む臨床的に重要な言語の不適切な扱いによって制限される。
我々は,フリーテキスト胸部X線レポートから抽出したマルチラベル検索のための人間の専門知識と大規模言語モデルを組み合わせた臨床用ガイドフレームワークを開発し,レポート評価のための指標であるRan Scoreを定義する。
3つの重複しないMIMIC-CXR-ENコホートと、ChestX-CNバリデーションコホートを用いて、プロンプトを最適化し、放射線学者由来の基準ラベルを確立し、レポート生成モデルを評価する。
最適化されたフレームワークは、MIMIC-CXR-EN開発コホートでのマクロ平均スコアを0.753から0.956に改善し、CheXbertベンチマークを15.7ポイント上回り、ChestX-CN検証コホートで堅牢な一般化を示す。
ここでは,臨床医が指導するプロンプト最適化が,放射線技師による基準基準との一致を改善し,Ran Scoreが報告の忠実度,特に低頻度異常の発見レベル評価を可能にすることを示す。
関連論文リスト
- CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation [2.61152955442649]
CRIMSONは胸部X線レポート生成のための臨床基盤評価フレームワークである。
エラーを、誤った発見、不明な発見、8つの属性レベルのエラーを含む包括的な分類に分類する。
CRIMSONは、6人の放射線技師によって注釈された臨床的に重要なエラー数と強く一致して検証される。
論文 参考訳(メタデータ) (2026-03-06T11:43:42Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation [8.08950963137043]
CTest-Metricは,CT RRGのメトリクスの臨床的実現可能性を決定する3つのモジュールを備えた,最初の統合された計量評価フレームワークである。
モジュールテストでは, (i) LLMによるリフレッシングによるWSG, (ii) 重症度における合成エラー注入(SEI) および (iii) MvE (Metrics-vs-Expert correlation) を用いて臨床評価を行った。
8つの広く使われているメトリクス(BLEU, ROUGE, METEOR, BERTScore-F1, F1-RadGraph, Ra)
論文 参考訳(メタデータ) (2026-01-16T18:09:19Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - S-RRG-Bench: Structured Radiology Report Generation with Fine-Grained Evaluation Framework [39.542375803362965]
胸部X線などの診断画像のための放射線診断レポート生成(RRG)は、臨床とAIの両方において重要な役割を担っている。
従来のフリーテキストレポートは冗長性と一貫性のない言語に悩まされ、臨床的に重要な詳細の抽出が複雑になる。
本稿では、データセット構築、モデルトレーニング、新しい評価フレームワークの導入を含む、S-RRGに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:49:41Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - ReXrank: A Public Leaderboard for AI-Powered Radiology Report Generation [16.687723916901728]
我々は、AIを利用した放射線学レポート生成を評価するためのリーダーボードで課題であるReXrankを紹介する。
このフレームワークには1万の研究からなる最大のテストデータセットであるReXGradientが組み込まれています。
この標準化された評価フレームワークを提供することで、ReXrankはモデルパフォーマンスの有意義な比較を可能にします。
論文 参考訳(メタデータ) (2024-11-22T18:40:02Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。