Fugu-MT 論文翻訳(概要): Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports

論文の概要: Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports

arxiv url: http://arxiv.org/abs/2401.16578v3
Date: Sat, 17 Feb 2024 03:07:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 03:06:29.151212
Title: Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports
Title（参考訳）: 放射線科専門医の専門知識を活かしてLLMの評価を高める
Authors: Qingqing Zhu, Xiuying Chen, Qiao Jin, Benjamin Hou, Tejas Sudharshan Mathai, Pritam Mukherjee, Xin Gao, Ronald M Summers, Zhiyong Lu
Abstract要約: 提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
参考スコア（独自算出の注目度）: 22.599250713630333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In radiology, Artificial Intelligence (AI) has significantly advanced report generation, but automatic evaluation of these AI-produced reports remains challenging. Current metrics, such as Conventional Natural Language Generation (NLG) and Clinical Efficacy (CE), often fall short in capturing the semantic intricacies of clinical contexts or overemphasize clinical details, undermining report clarity. To overcome these issues, our proposed method synergizes the expertise of professional radiologists with Large Language Models (LLMs), like GPT-3.5 and GPT-4 1. Utilizing In-Context Instruction Learning (ICIL) and Chain of Thought (CoT) reasoning, our approach aligns LLM evaluations with radiologist standards, enabling detailed comparisons between human and AI generated reports. This is further enhanced by a Regression model that aggregates sentence evaluation scores. Experimental results show that our "Detailed GPT-4 (5-shot)" model achieves a 0.48 score, outperforming the METEOR metric by 0.19, while our "Regressed GPT-4" model shows even greater alignment with expert evaluations, exceeding the best existing metric by a 0.35 margin. Moreover, the robustness of our explanations has been validated through a thorough iterative strategy. We plan to publicly release annotations from radiology experts, setting a new standard for accuracy in future assessments. This underscores the potential of our approach in enhancing the quality assessment of AI-driven medical reports.
Abstract（参考訳）: 放射線学では、人工知能(AI)はレポート生成を大幅に進歩させたが、これらのAIによって生成されたレポートの自動評価は依然として困難である。従来の自然言語生成(NLG)や臨床効力感(CE)といった現在の指標は、臨床コンテキストの意味的な複雑さを捉えたり、臨床の詳細を過度に強調したり、報告の明確さを損なうことがしばしばある。これらの問題を解決するため,提案手法は,GPT-3.5 や GPT-4 1 のような大規模言語モデル (LLM) の専門医の専門知識を相乗化したものである。 In-Context Instruction Learning (ICIL) とChain of Thought (CoT) の推論を活用することで,LLMの評価を放射線学の標準と整合させ,人間とAIが生成したレポートの詳細な比較を可能にする。これは、文評価スコアを集約する回帰モデルによってさらに強化される。実験結果から、我々の「詳細 GPT-4 (5-shot) モデル」は、METEOR を 0.19 で上回り、METEOR を 0.48 で上回り、我々の「回帰 GPT-4 モデル」は専門家による評価とさらに整合性を示し、既存の指標を 0.35 で上回る結果となった。さらに, 説明の堅牢性は, 徹底的な反復戦略によって検証されている。我々は,放射線学の専門家からアノテーションを公開し,今後の評価における精度の基準を策定する。このことは、AI駆動型医療報告の品質評価を強化するアプローチの可能性を示している。

関連論文リスト

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Fine-Tuning In-House Large Language Models to Infer Differential Diagnosis from Radiology Reports [1.5972172622800358]
本研究は, 放射線学報告と鑑別診断に適した社内LPMの開発パイプラインを提案する。 GPT-4と同等の92.1%のF1スコアが得られた。
論文参考訳（メタデータ） (2024-10-11T20:16:25Z)
MGH Radiology Llama: A Llama 3 70B Model for Radiology [50.42811030970618]
本稿では,高度な放射線学に焦点を当てた大規模言語モデルMGH Radiology Llamaを提案する。 Llama 3 70Bモデルを使用して開発され、Radiology-GPTやRadiology-Llama2といった従来のドメイン固有モデルをベースにしている。従来の指標とGPT-4に基づく評価の両方を取り入れた評価では,汎用LLMよりも高い性能を示す。
論文参考訳（メタデータ） (2024-08-13T01:30:03Z)
RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。 RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文参考訳（メタデータ） (2024-06-24T17:49:28Z)
LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation [37.20505633019773]
生成された放射線学レポートを評価することは、放射線学AIの開発に不可欠である。本研究では,大規模言語モデル (LLM) を用いた新しい評価手法を提案する。
論文参考訳（メタデータ） (2024-04-01T09:02:12Z)
Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries [0.024105148723769353]
我々は、精神状態検査から簡潔な要約を生成するために、いくつかの最先端の大規模言語モデル(LLM)を評価した。確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。我々の最高性能の微調整モデルは既存のモデルより優れており、ROUGE-1とROUGE-Lはそれぞれ0.810と0.764である。
論文参考訳（メタデータ） (2024-03-29T12:25:37Z)
Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。自由テキストレポートから情報を抽出するパイプラインを提案する。我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文参考訳（メタデータ） (2024-03-27T18:38:39Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文参考訳（メタデータ） (2023-10-23T05:13:03Z)
ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。 ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文参考訳（メタデータ） (2023-10-08T17:23:17Z)
Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。 MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-08-29T17:44:28Z)
Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。 5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文参考訳（メタデータ） (2022-04-01T14:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。