論文の概要: VERT: Reliable LLM Judges for Radiology Report Evaluation
- arxiv url: http://arxiv.org/abs/2604.03376v1
- Date: Fri, 03 Apr 2026 18:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.543943
- Title: VERT: Reliable LLM Judges for Radiology Report Evaluation
- Title(参考訳): VERT:放射線学レポート評価のための信頼性の高いLLM審査員
- Authors: Federica Bologna, Jean-Philippe Corbeil, Matthew Wilkens, Asma Ben Abacha,
- Abstract要約: 専門家とLLMに基づく評価の相関分析を行う。
VERTはGREENと比較して、放射線学者の判断との相関を最大11.7%改善する。
微調整のQwen3 30Bは1,300のトレーニングサンプルを使用して最大25%の利得を得る。
- 参考スコア(独自算出の注目度): 4.257039323799664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current literature on radiology report evaluation has focused primarily on designing LLM-based metrics and fine-tuning small models for chest X-rays. However, it remains unclear whether these approaches are robust when applied to reports from other modalities and anatomies. Which model and prompt configurations are best suited to serve as LLM judges for radiology evaluation? We conduct a thorough correlation analysis between expert and LLM-based ratings. We compare three existing LLM-as-a-judge metrics (RadFact, GREEN, and FineRadScore) alongside VERT, our proposed LLM-based metric, using open- and closed-source models (reasoning and non-reasoning) of different sizes across two expert-annotated datasets, RadEval and RaTE-Eval, spanning multiple modalities and anatomies. We further evaluate few-shot approaches, ensembling, and parameter-efficient fine-tuning using RaTE-Eval. To better understand metric behavior, we perform a systematic error detection and categorization study to assess alignment of these metrics against expert judgments and identify areas of lower and higher agreement. Our results show that VERT improves correlation with radiologist judgments by up to 11.7% relative to GREEN. Furthermore, fine-tuning Qwen3 30B yield gains of up to 25% using only 1,300 training samples. The fine-tuned model also reduces inference time up to 37.2 times. These findings highlight the effectiveness of LLM-based judges and demonstrate that reliable evaluation can be achieved with lightweight adaptation.
- Abstract(参考訳): 放射線医学報告の評価に関する最近の文献は、主に胸部X線のためのLCMベースのメトリクスと微調整の小さなモデルの設計に焦点を当てている。
しかし、これらのアプローチが他のモダリティや解剖学からの報告に適用された場合、ロバストであるかどうかは不明である。
放射線学評価のLLM審査官として,どのモデルとプロンプト構成が最適か?
我々は、専門家とLLMに基づく評価の徹底的な相関分析を行う。
提案したLLMベースのメトリクスであるVERTと合わせて既存のLLM-as-a-judgeメトリクス(RadFact,GREEN,FinRadScore)を比較した。
さらに、RaTE-Evalを用いて、少数ショットアプローチ、アンサンブル、パラメータ効率の微調整についても評価する。
メトリクスの振る舞いをよりよく理解するために、これらのメトリクスを専門家の判断と一致させ、より低い、より高い合意の領域を特定するために、系統的なエラー検出と分類研究を行う。
以上の結果から,VERTはGREENに対して最大11.7%の相関性を示した。
さらに、微調整したQwen3 30Bは1300のトレーニングサンプルだけで25%の利得を得る。
微調整されたモデルは推論時間を最大37.2倍に短縮する。
これらの知見は, LLMに基づく審査員の有効性を浮き彫りにし, 軽量適応により信頼性評価が達成できることを実証した。
関連論文リスト
- Semantic Similarity in Radiology Reports via LLMs and NER [1.2489632787815885]
放射線医学報告の評価は放射線医の訓練において重要な部分であり、診断精度の確保に重要な役割を果たしている。
予備報告と最終報告のセマンティックな差異を識別することは、訓練ツールとして、臨床知識のギャップを明らかにするためにも不可欠である。
放射線学におけるAIは急速に発展している分野であるが、専門知識を必要とするため、大規模言語モデル(LLM)の適用は依然として困難である。
Llama-EntScore は Llama 3.1 と NER の組み合わせとチューナブルウェイトを組み合わせた意味的類似性スコア法である。
論文 参考訳(メタデータ) (2025-10-03T15:31:11Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - MRScore: Evaluating Radiology Report Generation with LLM-based Reward System [39.54237580336297]
本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標 MRScore を紹介する。
この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。
実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-27T04:42:45Z) - LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation [37.20505633019773]
生成された放射線学レポートを評価することは、放射線学AIの開発に不可欠である。
本研究では,大規模言語モデル (LLM) を用いた新しい評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。