論文の概要: MRScore: Evaluating Radiology Report Generation with LLM-based Reward System
- arxiv url: http://arxiv.org/abs/2404.17778v1
- Date: Sat, 27 Apr 2024 04:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:20:56.677190
- Title: MRScore: Evaluating Radiology Report Generation with LLM-based Reward System
- Title(参考訳): MRScore: LLM-based Reward System を用いた放射線診断レポート作成の評価
- Authors: Yunyi Liu, Zhanyu Wang, Yingshu Li, Xinyu Liang, Lingqiao Liu, Lei Wang, Luping Zhou,
- Abstract要約: 本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標 MRScore を紹介する。
この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。
実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。
- 参考スコア(独自算出の注目度): 39.54237580336297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, automated radiology report generation has experienced significant growth. This paper introduces MRScore, an automatic evaluation metric tailored for radiology report generation by leveraging Large Language Models (LLMs). Conventional NLG (natural language generation) metrics like BLEU are inadequate for accurately assessing the generated radiology reports, as systematically demonstrated by our observations within this paper. To address this challenge, we collaborated with radiologists to develop a framework that guides LLMs for radiology report evaluation, ensuring alignment with human analysis. Our framework includes two key components: i) utilizing GPT to generate large amounts of training data, i.e., reports with different qualities, and ii) pairing GPT-generated reports as accepted and rejected samples and training LLMs to produce MRScore as the model reward. Our experiments demonstrate MRScore's higher correlation with human judgments and superior performance in model selection compared to traditional metrics. Our code and datasets will be available on GitHub.
- Abstract(参考訳): 近年では、自動放射線診断レポート生成が著しい成長を遂げている。
本稿では,Large Language Models (LLMs) を利用した放射線学レポート生成のための自動評価指標であるMSScoreを紹介する。
BLEUのような従来のNLG(自然言語生成)メトリクスは、この論文の観察で系統的に示されているように、生成された放射線学レポートを正確に評価するには不十分である。
この課題に対処するため,我々は放射線学者と共同で,放射線学報告評価のためのLCMをガイドするフレームワークを開発し,ヒト分析との整合性を確保した。
私たちのフレームワークには2つの重要なコンポーネントが含まれています。
一 GPT を利用して、大量の訓練データ、すなわち、異なる品質の報告を生成し、
二 モデル報酬として、GPT生成報告を受理して、サンプルを拒絶し、MSScoreを生産するためにLSMを訓練すること。
実験では,MSScoreが人間の判断と高い相関性を示し,従来の指標と比較して,モデル選択における優れた性能を示した。
コードとデータセットはGitHubで公開されます。
関連論文リスト
- Resource-Efficient Medical Report Generation using Large Language Models [3.2627279988912194]
医療報告生成は胸部X線画像の放射線診断レポートを自動作成する作業である。
本稿では,医療報告生成のタスクに視覚対応大規模言語モデル(LLM)を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T05:08:18Z) - Clinical Context-aware Radiology Report Generation from Medical Images using Transformers [1.0878040851637998]
胸部X線からのX線診断におけるトランスフォーマーモデルの有用性について検討した。
また,標準言語生成指標のみを用いて放射線学レポート生成を評価する際の限界も強調する。
論文 参考訳(メタデータ) (2024-08-21T05:04:25Z) - X-ray Made Simple: Radiology Report Generation and Evaluation with Layman's Terms [25.871814979179373]
ラジオロジーレポート生成(RRG)は多モード生成モデルの進歩によって大きな進歩を遂げた。
既存の語彙ベースのメトリクス(例えばBLEU)によるRRGのハイパフォーマンスは、単なるミラージュ(mirage)である。
我々は、レイマンの用語ベースのデータセット、評価およびトレーニングフレームワークであるRRGフレームワークを提案することによって、この問題に意図せずにアプローチする。
論文 参考訳(メタデータ) (2024-06-25T19:52:01Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation [37.20505633019773]
生成された放射線学レポートを評価することは、放射線学AIの開発に不可欠である。
本研究では,大規模言語モデル (LLM) を用いた新しい評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:02:12Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。