論文の概要: RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores
- arxiv url: http://arxiv.org/abs/2508.15464v1
- Date: Thu, 21 Aug 2025 11:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.297789
- Title: RadReason: Radiology Report Evaluation Metric with Reasons and Sub-Scores
- Title(参考訳): RadReason:RadReasonの評価基準とサブスコア
- Authors: Yingshu Li, Yunyi Liu, Lingqiao Liu, Lei Wang, Luping Zhou,
- Abstract要約: 放射線学報告のための新しい評価フレームワークRadReasonを紹介する。
6つの臨床的に定義されたエラータイプにまたがって、きめ細かいサブスコアを出力する。
また、スコアの背景にある根拠を説明する人間可読な正当性も生み出す。
- 参考スコア(独自算出の注目度): 37.16761198532088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating automatically generated radiology reports remains a fundamental challenge due to the lack of clinically grounded, interpretable, and fine-grained metrics. Existing methods either produce coarse overall scores or rely on opaque black-box models, limiting their usefulness in real-world clinical workflows. We introduce RadReason, a novel evaluation framework for radiology reports that not only outputs fine-grained sub-scores across six clinically defined error types, but also produces human-readable justifications that explain the rationale behind each score. Our method builds on Group Relative Policy Optimization and incorporates two key innovations: (1) Sub-score Dynamic Weighting, which adaptively prioritizes clinically challenging error types based on live F1 statistics; and (2) Majority-Guided Advantage Scaling, which adjusts policy gradient updates based on prompt difficulty derived from sub-score agreement. Together, these components enable more stable optimization and better alignment with expert clinical judgment. Experiments on the ReXVal benchmark show that RadReason surpasses all prior offline metrics and achieves parity with GPT-4-based evaluations, while remaining explainable, cost-efficient, and suitable for clinical deployment. Code will be released upon publication.
- Abstract(参考訳): 自動的に生成された放射線学の報告を評価することは、臨床に根ざした、解釈可能な、きめ細かいメトリクスが欠如していることから、依然として根本的な課題である。
既存の方法は、粗いスコアを生成するか、不透明なブラックボックスモデルに依存するかのいずれかであり、実際の臨床ワークフローにおける有用性を制限している。
RadReasonは、6つの臨床的に定義されたエラータイプにまたがる詳細なサブスコアを出力するだけでなく、各スコアの背景にある理論的根拠を説明する人間可読な正当性も生成する、放射線学レポートのための新しい評価フレームワークである。
本手法は,グループ相対的政策最適化を基盤として,(1)F1統計に基づく臨床上の難易度の高いエラータイプを適応的に優先順位付けするサブスコア動的重み付け,(2)サブスコア合意に基づく早期の難易度に基づく政策勾配更新を調整するMajority-Guided Advantage Scalingという2つの重要なイノベーションを取り入れている。
これらのコンポーネントは、より安定した最適化と、専門家の臨床的判断との整合性を高める。
ReXValベンチマークの実験では、RadReasonは以前のオフラインメトリクスを全て上回り、GPT-4ベースの評価と同等でありながら、説明可能でコスト効率が高く、臨床展開に適していることが示されている。
コードは出版時に公開される。
関連論文リスト
- CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.515687944002438]
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T05:57:59Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。