論文の概要: RadEval: A framework for radiology text evaluation
- arxiv url: http://arxiv.org/abs/2509.18030v1
- Date: Mon, 22 Sep 2025 17:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.525174
- Title: RadEval: A framework for radiology text evaluation
- Title(参考訳): RadEval: 放射線学テキスト評価のためのフレームワーク
- Authors: Justin Xu, Xi Zhang, Javid Abderezaei, Julie Bauml, Roger Boodoo, Fatemeh Haghighi, Ali Ganjizadeh, Eric Brattain, Dave Van Veen, Zaiqiao Meng, David Eyre, Jean-Benoit Delbrouck,
- Abstract要約: RadEvalは、放射線学のテキストを評価するための統一されたオープンソースフレームワークである。
古典的なn-gramオーバーラップから臨床概念に基づくスコアまで、さまざまなメトリクスを統合する。
450以上の臨床的に重要なエラーラベルを持つリッチな注釈付き専門家データセットをリリースする。
- 参考スコア(独自算出の注目度): 18.848190941379222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce RadEval, a unified, open-source framework for evaluating radiology texts. RadEval consolidates a diverse range of metrics, from classic n-gram overlap (BLEU, ROUGE) and contextual measures (BERTScore) to clinical concept-based scores (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) and advanced LLM-based evaluators (GREEN). We refine and standardize implementations, extend GREEN to support multiple imaging modalities with a more lightweight model, and pretrain a domain-specific radiology encoder, demonstrating strong zero-shot retrieval performance. We also release a richly annotated expert dataset with over 450 clinically significant error labels and show how different metrics correlate with radiologist judgment. Finally, RadEval provides statistical testing tools and baseline model evaluations across multiple publicly available datasets, facilitating reproducibility and robust benchmarking in radiology report generation.
- Abstract(参考訳): 我々はRadEvalを紹介した。RadEvalは、放射線学のテキストを評価するための統一されたオープンソースフレームワークである。
RadEvalは、古典的なn-gramオーバーラップ(BLEU, ROUGE)やコンテキスト測定(BERTScore)から、臨床概念ベースのスコア(F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1)、高度なLCMベースの評価器(GREEN)まで、さまざまなメトリクスを統合している。
我々は実装を洗練・標準化し、GREENを拡張し、より軽量なモデルで複数の画像モダリティをサポートし、ドメイン固有の放射線エンコーダを事前訓練し、強力なゼロショット検索性能を示す。
また、450以上の臨床的に重要なエラーラベルを持つリッチな注釈付き専門家データセットも公開し、異なる指標が放射線医学的判断とどのように相関しているかを示した。
最後にRadEvalは、複数の公開データセットにまたがる統計テストツールとベースラインモデル評価を提供し、ラジオロジーレポート生成における再現性と堅牢なベンチマークを容易にする。
関連論文リスト
- Ontology-Based Concept Distillation for Radiology Report Retrieval and Labeling [10.504309161945065]
既存のほとんどの手法は、CLIPやCXR-BERTのようなモデルからの高次元テキスト埋め込みを比較することに依存している。
統一医療言語システム(Unified Medical Language System)における臨床基礎概念に基づく放射線学報告テキストの比較のための,新しいオントロジーによる代替案を提案する。
本稿では,RadGraph-XLとSapBERTをベースとした拡張パイプラインを用いて,フリーテキストレポートから標準化された医療機関を抽出する。
論文 参考訳(メタデータ) (2025-08-27T14:20:50Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Radiology-Aware Model-Based Evaluation Metric for Report Generation [5.168471027680258]
提案手法は,放射線学領域に適応したCOMETアーキテクチャを用いて,機械による放射線学レポートの自動評価手法を提案する。
我々は、放射線学知識グラフであるRadGraphでトレーニングされた4つの医学的指向のモデルチェックポイントをトレーニングし、公開する。
以上の結果から,BERTscore,BLEU,CheXbertのスコアと中程度の相関が得られた。
論文 参考訳(メタデータ) (2023-11-28T13:08:26Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - Rad-ReStruct: A Novel VQA Benchmark and Method for Structured Radiology
Reporting [45.76458992133422]
Rad-ReStructは、X線画像の構造化レポートという形で、微細で階層的に順序付けられたアノテーションを提供する新しいベンチマークデータセットである。
本稿では,予め質問された質問や回答の形式で事前の文脈を考慮し,構造化された放射線学レポートを収集する手法であるhi-VQAを提案する。
実験の結果, 医用VQAベンチマークVQARadでは, ドメイン固有の視覚言語事前訓練を伴わない手法で, 最先端のVQAと競合する性能が得られた。
論文 参考訳(メタデータ) (2023-07-11T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。