論文の概要: ReEvalMed: Rethinking Medical Report Evaluation by Aligning Metrics with Real-World Clinical Judgment
- arxiv url: http://arxiv.org/abs/2510.00280v1
- Date: Tue, 30 Sep 2025 21:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.256932
- Title: ReEvalMed: Rethinking Medical Report Evaluation by Aligning Metrics with Real-World Clinical Judgment
- Title(参考訳): ReEvalMed: リアルな臨床判断を伴うメトリクスの調整による医療報告評価の再考
- Authors: Ruochen Li, Jun Li, Bailiang Jian, Kun Yuan, Youxiang Zhu,
- Abstract要約: 臨床基盤のメタ評価フレームワークを提案する。
臨床診断基準は,臨床のアライメントと重要な指標能力にまたがる。
我々のフレームワークは、より臨床的に信頼性の高い評価方法を構築するためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 10.958326795130112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generated radiology reports often receive high scores from existing evaluation metrics but fail to earn clinicians' trust. This gap reveals fundamental flaws in how current metrics assess the quality of generated reports. We rethink the design and evaluation of these metrics and propose a clinically grounded Meta-Evaluation framework. We define clinically grounded criteria spanning clinical alignment and key metric capabilities, including discrimination, robustness, and monotonicity. Using a fine-grained dataset of ground truth and rewritten report pairs annotated with error types, clinical significance labels, and explanations, we systematically evaluate existing metrics and reveal their limitations in interpreting clinical semantics, such as failing to distinguish clinically significant errors, over-penalizing harmless variations, and lacking consistency across error severity levels. Our framework offers guidance for building more clinically reliable evaluation methods.
- Abstract(参考訳): 自動生成された放射線学報告は、しばしば既存の評価指標から高いスコアを得るが、臨床医の信頼を得ることができない。
このギャップは、現在のメトリクスが生成されたレポートの品質を評価する方法の根本的な欠陥を明らかにします。
我々は,これらの指標の設計と評価を再考し,臨床基盤のメタ評価フレームワークを提案する。
臨床診断基準は, 差別, 頑健性, 単調性など, 臨床診断基準と重要な計量能力にまたがる。
本研究は, 臨床上の有意な誤りの識別に失敗したり, 無害な変動を過度に減らしたり, エラー重大度レベルの整合性に欠けるなど, 臨床意味論の解釈において, 既存の指標を体系的に評価し, その限界を明らかにする。
我々のフレームワークは、より臨床的に信頼性の高い評価方法を構築するためのガイダンスを提供する。
関連論文リスト
- Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - CLEAR: A Clinically-Grounded Tabular Framework for Radiology Report Evaluation [14.580143601537957]
専門ラベルを用いた臨床評価フレームワークと放射線診断報告評価のための属性レベル比較(CLEAR)について紹介する。
CLEARは、報告書が医療状況の有無を正確に特定できるかどうかを調べる。
CLEARの臨床的アライメントを測定するため,MIMIC-CXRから得られた100個の胸部X線所見のデータセットであるCLEAR-Benchを開発した。
論文 参考訳(メタデータ) (2025-05-22T07:32:12Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Pitfalls of topology-aware image segmentation [81.19923502845441]
我々は、不適切な接続選択、見過ごされたトポロジカルアーティファクト、評価指標の不適切な使用を含むモデル評価における致命的な落とし穴を同定する。
本稿では,トポロジを意識した医用画像分割手法の公正かつ堅牢な評価基準を確立するための,行動可能なレコメンデーションセットを提案する。
論文 参考訳(メタデータ) (2024-12-19T08:11:42Z) - Image-aware Evaluation of Generated Medical Reports [11.190146577567548]
本稿では,X線画像から自動医療報告を生成するための新しい評価基準であるVLScoreを提案する。
測定基準の主な考え方は、対応する画像を考慮して、放射線学報告の類似度を測定することである。
我々は, 放射線学者が2対の報告で誤りを指摘し, 放射線学者の判断と顕著な一致を示したデータセットを用いた評価により, 測定値の利点を実証した。
論文 参考訳(メタデータ) (2024-10-22T18:50:20Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。