論文の概要: ReFINE: A Reward-Based Framework for Interpretable and Nuanced Evaluation of Radiology Report Generation
- arxiv url: http://arxiv.org/abs/2411.17301v2
- Date: Thu, 13 Feb 2025 12:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:46:29.972733
- Title: ReFINE: A Reward-Based Framework for Interpretable and Nuanced Evaluation of Radiology Report Generation
- Title(参考訳): ReFINE: 放射線診断レポート生成の解釈と評価のためのリワードベースフレームワーク
- Authors: Yunyi Liu, Yingshu Li, Zhanyu Wang, Xinyu Liang, Lingqiao Liu, Lei Wang, Luping Zhou,
- Abstract要約: ReFINEは、放射線学レポート生成(R2Gen)に特化して設計された自動評価指標である。
ユーザが指定した基準に従ってレポートをスコアし、詳細なサブスコアを提供し、解釈可能性を高める。
実験では,従来の指標と比較して,人間の判断とReFINEの相関が高められ,モデル選択における優れた性能が示された。
- 参考スコア(独自算出の注目度): 39.542375803362965
- License:
- Abstract: Automated radiology report generation (R2Gen) has advanced significantly, introducing challenges in accurate evaluation due to its complexity. Traditional metrics often fall short by relying on rigid word-matching or focusing only on pathological entities, leading to inconsistencies with human assessments. To bridge this gap, we introduce ReFINE, an automatic evaluation metric designed specifically for R2Gen. Our metric utilizes a reward model, guided by our margin-based reward enforcement loss, along with a tailored training data design that enables customization of evaluation criteria to suit user-defined needs. It not only scores reports according to user-specified criteria but also provides detailed sub-scores, enhancing interpretability and allowing users to adjust the criteria between different aspects of reports. Leveraging GPT-4, we designed an easy-to-use data generation pipeline, enabling us to produce extensive training data based on two distinct scoring systems, each containing reports of varying quality along with corresponding scores. These GPT-generated reports are then paired as accepted and rejected samples through our pairing rule to train an LLM towards our fine-grained reward model, which assigns higher rewards to the report with high quality. Our reward-control loss enables this model to simultaneously output multiple individual rewards corresponding to the number of evaluation criteria, with their summation as our final ReFINE. Our experiments demonstrate ReFINE's heightened correlation with human judgments and superior performance in model selection compared to traditional metrics. Notably, our model provides both an overall score and individual scores for each evaluation item, enhancing interpretability. We also demonstrate its flexible training across various evaluation systems.
- Abstract(参考訳): 自動放射線診断レポート生成(R2Gen)は、その複雑さによる正確な評価の課題を導入し、大幅に進歩した。
伝統的なメトリクスは、厳格な単語マッチングに頼るか、病理的な実体のみに焦点をあてることによって、しばしば不足し、人間の評価と矛盾する。
このギャップを埋めるために、R2Gen用に特別に設計された自動評価指標であるReFINEを紹介する。
評価基準のカスタマイズをユーザ定義のニーズに合わせて行えるようにしたトレーニングデータ設計とともに、マージンベースの報酬執行の損失によって導かれる報酬モデルを活用している。
ユーザが指定した基準に従ってレポートをスコアするだけでなく、詳細なサブスコアも提供し、解釈可能性を高め、ユーザーはレポートの異なる側面の基準を調整できる。
GPT-4を応用したデータ生成パイプラインを設計し、2つの異なるスコアシステムに基づく広範囲なトレーニングデータの作成を可能にした。
これらのGPT生成されたレポートは、私たちのペアリングルールを通じて承認および却下されたサンプルとしてペア化され、LLMを我々の細かい報酬モデルに向けて訓練し、高品質なレポートにより高い報酬を割り当てる。
我々の報酬制御損失は、評価基準の数に応じて複数の個人報酬を同時に出力し、その総和を最終ReFINEとすることができる。
実験では,従来の指標と比較して,人間の判断とReFINEの相関が高められ,モデル選択における優れた性能が示された。
特に,本モデルでは,各評価項目に対する総合スコアと個別スコアの両方を提供し,解釈可能性を高める。
また、様々な評価システムにまたがるフレキシブルなトレーニングを実演する。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - MRScore: Evaluating Radiology Report Generation with LLM-based Reward System [39.54237580336297]
本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標 MRScore を紹介する。
この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。
実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-27T04:42:45Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Unsupervised evaluation of GAN sample quality: Introducing the TTJac
Score [5.1359892878090845]
データフリーで個々の合成画像の忠実度を測定するために「TTJac score」を提案する。
FFHQ, AFHQ-Wild, LSUN-Cars, LSUN-Horseデータセット上でのStyleGAN 2およびStyleGAN 2 ADAモデルに適用した実験結果を示す。
論文 参考訳(メタデータ) (2023-08-31T19:55:50Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。