Fugu-MT 論文翻訳(概要): ER2Score: LLM-based Explainable and Customizable Metric for Assessing Radiology Reports with Reward-Control Loss

論文の概要: ER2Score: LLM-based Explainable and Customizable Metric for Assessing Radiology Reports with Reward-Control Loss

arxiv url: http://arxiv.org/abs/2411.17301v1
Date: Tue, 26 Nov 2024 10:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 17:03:33.170465
Title: ER2Score: LLM-based Explainable and Customizable Metric for Assessing Radiology Reports with Reward-Control Loss
Title（参考訳）: ER2Score:LLMをベースとした放射線学レポートの評価のための説明可能な、カスタマイズ可能なメトリクス
Authors: Yunyi Liu, Yingshu Li, Zhanyu Wang, Xinyu Liang, Lingqiao Liu, Lei Wang, Luping Zhou,
Abstract要約: ER2Scoreは放射線学レポート生成(R2Gen)に特化して設計された自動評価指標であるユーザが指定した基準に従ってレポートをスコアし、詳細なサブスコアを提供し、解釈可能性を高める。実験では,ER2Scoreが人間の判断と高い相関性を示し,モデル選択における優れた性能を示した。
参考スコア（独自算出の注目度）: 39.542375803362965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated radiology report generation (R2Gen) has advanced significantly, introducing challenges in accurate evaluation due to its complexity. Traditional metrics often fall short by relying on rigid word-matching or focusing only on pathological entities, leading to inconsistencies with human assessments. To bridge this gap, we introduce ER2Score, an automatic evaluation metric designed specifically for R2Gen. Our metric utilizes a reward model, guided by our margin-based reward enforcement loss, along with a tailored training data design that enables customization of evaluation criteria to suit user-defined needs. It not only scores reports according to user-specified criteria but also provides detailed sub-scores, enhancing interpretability and allowing users to adjust the criteria between different aspects of reports. Leveraging GPT-4, we designed an easy-to-use data generation pipeline, enabling us to produce extensive training data based on two distinct scoring systems, each containing reports of varying quality along with corresponding scores. These GPT-generated reports are then paired as accepted and rejected samples through our pairing rule to train an LLM towards our fine-grained reward model, which assigns higher rewards to the report with high quality. Our reward-control loss enables this model to simultaneously output multiple individual rewards corresponding to the number of evaluation criteria, with their summation as our final ER2Score. Our experiments demonstrate ER2Score's heightened correlation with human judgments and superior performance in model selection compared to traditional metrics. Notably, our model provides both an overall score and individual scores for each evaluation item, enhancing interpretability. We also demonstrate its flexible training across various evaluation systems.
Abstract（参考訳）: 自動放射線診断レポート生成(R2Gen)は、その複雑さによる正確な評価の課題を導入し、大幅に進歩した。伝統的なメトリクスは、厳格な単語マッチングに頼るか、病理的な実体のみに焦点をあてることによって、しばしば不足し、人間の評価と矛盾する。このギャップを埋めるために、我々はR2Gen用に特別に設計された自動評価指標であるER2Scoreを導入する。評価基準のカスタマイズをユーザ定義のニーズに合わせて行えるようにしたトレーニングデータ設計とともに、マージンベースの報酬執行の損失によって導かれる報酬モデルを活用している。ユーザが指定した基準に従ってレポートをスコアするだけでなく、詳細なサブスコアも提供し、解釈可能性を高め、ユーザーはレポートの異なる側面の基準を調整できる。 GPT-4を応用したデータ生成パイプラインを設計し、2つの異なるスコアシステムに基づく広範囲なトレーニングデータの作成を可能にした。これらのGPT生成されたレポートは、私たちのペアリングルールを通じて承認および却下されたサンプルとしてペア化され、LLMを我々の細かい報酬モデルに向けて訓練し、高品質なレポートにより高い報酬を割り当てる。我々の報酬制御損失は、評価基準の数に応じて複数の個人報酬を同時に出力し、その和を最終的なER2Scoreとすることができる。実験では,ER2Scoreと人的判断の相関が高められ,従来の指標と比較してモデル選択性能が優れていた。特に,本モデルでは,各評価項目に対する総合スコアと個別スコアの両方を提供し,解釈可能性を高める。また、様々な評価システムにまたがるフレキシブルなトレーニングを実演する。

関連論文リスト

RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。 MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文参考訳（メタデータ） (2025-04-23T23:05:46Z)
Neural Corrective Machine Unranking [3.2340528215722553]
正解法を定式化し、新しい教師学生の枠組みである正解法無依存蒸留(CuRD)を提案する。 CuRDは、(訓練された)ニューラルIRモデルを調整することで、その出力関連スコアが低レベルの非検索可能なサンプルを模倣するように、忘れることを容易にする。トレーニングデータセットの1%と20%のセットサイズを忘れる実験は、CuRDが忘れと修正の点で7つの最先端のベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2024-11-13T12:19:46Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [2.186726107112913]
本稿では,モデルに基づく評価手法 TALEC を提案する。ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。 TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文参考訳（メタデータ） (2024-06-25T10:02:42Z)
MRScore: Evaluating Radiology Report Generation with LLM-based Reward System [39.54237580336297]
本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標 MRScore を紹介する。この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。
論文参考訳（メタデータ） (2024-04-27T04:42:45Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Unsupervised evaluation of GAN sample quality: Introducing the TTJac Score [5.1359892878090845]
データフリーで個々の合成画像の忠実度を測定するために「TTJac score」を提案する。 FFHQ, AFHQ-Wild, LSUN-Cars, LSUN-Horseデータセット上でのStyleGAN 2およびStyleGAN 2 ADAモデルに適用した実験結果を示す。
論文参考訳（メタデータ） (2023-08-31T19:55:50Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。