論文の概要: CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation
- arxiv url: http://arxiv.org/abs/2601.11488v1
- Date: Fri, 16 Jan 2026 18:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.593739
- Title: CTest-Metric: A Unified Framework to Assess Clinical Validity of Metrics for CT Report Generation
- Title(参考訳): CTest-Metric:CTレポート作成のための臨床的妥当性を評価する統一フレームワーク
- Authors: Vanshali Sharma, Andrea Mia Bejar, Gorkem Durak, Ulas Bagci,
- Abstract要約: CTest-Metricは,CT RRGのメトリクスの臨床的実現可能性を決定する3つのモジュールを備えた,最初の統合された計量評価フレームワークである。
モジュールテストでは, (i) LLMによるリフレッシングによるWSG, (ii) 重症度における合成エラー注入(SEI) および (iii) MvE (Metrics-vs-Expert correlation) を用いて臨床評価を行った。
8つの広く使われているメトリクス(BLEU, ROUGE, METEOR, BERTScore-F1, F1-RadGraph, Ra)
- 参考スコア(独自算出の注目度): 8.08950963137043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the generative AI era, where even critical medical tasks are increasingly automated, radiology report generation (RRG) continues to rely on suboptimal metrics for quality assessment. Developing domain-specific metrics has therefore been an active area of research, yet it remains challenging due to the lack of a unified, well-defined framework to assess their robustness and applicability in clinical contexts. To address this, we present CTest-Metric, a first unified metric assessment framework with three modules determining the clinical feasibility of metrics for CT RRG. The modules test: (i) Writing Style Generalizability (WSG) via LLM-based rephrasing; (ii) Synthetic Error Injection (SEI) at graded severities; and (iii) Metrics-vs-Expert correlation (MvE) using clinician ratings on 175 "disagreement" cases. Eight widely used metrics (BLEU, ROUGE, METEOR, BERTScore-F1, F1-RadGraph, RaTEScore, GREEN Score, CRG) are studied across seven LLMs built on a CT-CLIP encoder. Using our novel framework, we found that lexical NLG metrics are highly sensitive to stylistic variations; GREEN Score aligns best with expert judgments (Spearman~0.70), while CRG shows negative correlation; and BERTScore-F1 is least sensitive to factual error injection. We will release the framework, code, and allowable portion of the anonymized evaluation data (rephrased/error-injected CT reports), to facilitate reproducible benchmarking and future metric development.
- Abstract(参考訳): 重要な医療タスクがますます自動化される生成AI時代において、ラジオロジーレポート生成(RRG)は品質評価に最適な指標に依存し続けている。
したがって、ドメイン固有のメトリクスの開発は研究の活発な領域であるが、臨床の文脈におけるその堅牢性と適用性を評価するための統一的で明確に定義された枠組みが欠如しているため、依然として困難である。
CTest-Metricは,CT RRGのメトリクスの臨床的実現可能性を決定する3つのモジュールを備えた,最初の統合された計量評価フレームワークである。
モジュールテスト:
一 LLMによる言い換えによる書体一般化可能性(WSG)
二 次数重度における合成誤差注入(SEI)
3)175例の臨床評価値を用いたMvE(Metrics-vs-Expert correlation)について検討した。
8つの広く使われているメトリクス(BLEU, ROUGE, METEOR, BERTScore-F1, F1-RadGraph, RaTEScore, GREEN Score, CRG)は、CT-CLIPエンコーダ上に構築された7つのLLMで研究されている。
GREEN Scoreは専門家による判断(Spearman~0.70),CRGは負の相関を示し,BERTScore-F1は事実の誤り注入に最も敏感である。
我々は、再現可能なベンチマークと将来のメトリクス開発を容易にするために、匿名化評価データのフレームワーク、コード、許容可能な部分(リフレーズ/エラー注入CTレポート)をリリースする。
関連論文リスト
- ReEvalMed: Rethinking Medical Report Evaluation by Aligning Metrics with Real-World Clinical Judgment [10.958326795130112]
臨床基盤のメタ評価フレームワークを提案する。
臨床診断基準は,臨床のアライメントと重要な指標能力にまたがる。
我々のフレームワークは、より臨床的に信頼性の高い評価方法を構築するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T21:00:47Z) - RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores [37.16761198532088]
放射線学報告のための新しい評価フレームワークRadReasonを紹介する。
6つの臨床的に定義されたエラータイプにまたがって、きめ細かいサブスコアを出力する。
また、スコアの背景にある根拠を説明する人間可読な正当性も生み出す。
論文 参考訳(メタデータ) (2025-08-21T11:34:30Z) - CRG Score: A Distribution-Aware Clinical Metric for Radiology Report Generation [6.930435788495898]
CRGスコア(CRG Score, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア)
ラベル分布に基づく罰則のバランスをとることにより、より公平で堅牢な評価を可能にし、臨床に整合した報酬機能として機能する。
論文 参考訳(メタデータ) (2025-05-22T17:02:28Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。