論文の概要: Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports
- arxiv url: http://arxiv.org/abs/2401.16578v3
- Date: Sat, 17 Feb 2024 03:07:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:06:29.151212
- Title: Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports
- Title(参考訳): 放射線科専門医の専門知識を活かしてLLMの評価を高める
- Authors: Qingqing Zhu, Xiuying Chen, Qiao Jin, Benjamin Hou, Tejas Sudharshan
Mathai, Pritam Mukherjee, Xin Gao, Ronald M Summers, Zhiyong Lu
- Abstract要約: 提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
- 参考スコア(独自算出の注目度): 22.599250713630333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In radiology, Artificial Intelligence (AI) has significantly advanced report
generation, but automatic evaluation of these AI-produced reports remains
challenging. Current metrics, such as Conventional Natural Language Generation
(NLG) and Clinical Efficacy (CE), often fall short in capturing the semantic
intricacies of clinical contexts or overemphasize clinical details, undermining
report clarity. To overcome these issues, our proposed method synergizes the
expertise of professional radiologists with Large Language Models (LLMs), like
GPT-3.5 and GPT-4 1. Utilizing In-Context Instruction Learning (ICIL) and Chain
of Thought (CoT) reasoning, our approach aligns LLM evaluations with
radiologist standards, enabling detailed comparisons between human and AI
generated reports. This is further enhanced by a Regression model that
aggregates sentence evaluation scores. Experimental results show that our
"Detailed GPT-4 (5-shot)" model achieves a 0.48 score, outperforming the METEOR
metric by 0.19, while our "Regressed GPT-4" model shows even greater alignment
with expert evaluations, exceeding the best existing metric by a 0.35 margin.
Moreover, the robustness of our explanations has been validated through a
thorough iterative strategy. We plan to publicly release annotations from
radiology experts, setting a new standard for accuracy in future assessments.
This underscores the potential of our approach in enhancing the quality
assessment of AI-driven medical reports.
- Abstract(参考訳): 放射線学では、人工知能(AI)はレポート生成を大幅に進歩させたが、これらのAIによって生成されたレポートの自動評価は依然として困難である。
従来の自然言語生成(NLG)や臨床効力感(CE)といった現在の指標は、臨床コンテキストの意味的な複雑さを捉えたり、臨床の詳細を過度に強調したり、報告の明確さを損なうことがしばしばある。
これらの問題を解決するため,提案手法は,GPT-3.5 や GPT-4 1 のような大規模言語モデル (LLM) の専門医の専門知識を相乗化したものである。
In-Context Instruction Learning (ICIL) とChain of Thought (CoT) の推論を活用することで,LLMの評価を放射線学の標準と整合させ,人間とAIが生成したレポートの詳細な比較を可能にする。
これは、文評価スコアを集約する回帰モデルによってさらに強化される。
実験結果から、我々の「詳細 GPT-4 (5-shot) モデル」は、METEOR を 0.19 で上回り、METEOR を 0.48 で上回り、我々の「回帰 GPT-4 モデル」は専門家による評価とさらに整合性を示し、既存の指標を 0.35 で上回る結果となった。
さらに, 説明の堅牢性は, 徹底的な反復戦略によって検証されている。
我々は,放射線学の専門家からアノテーションを公開し,今後の評価における精度の基準を策定する。
このことは、AI駆動型医療報告の品質評価を強化するアプローチの可能性を示している。
関連論文リスト
- Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4 [14.884877292068351]
世界中のCT検査の量は毎年増加しており、放射線技師のバーンアウトにつながっている。大型言語モデル(LLM)は負担軽減の可能性を秘めているが、診療所での採用は放射線技師の信頼に依存している。
我々は,CTに基づく異常の正確な要約を生成する上で,視覚言語LLMの能力を評価するための新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - RO-LLaMA: Generalist LLM for Radiation Oncology via Noise Augmentation
and Consistency Regularization [51.877826904868975]
放射線腫瘍学の分野に適した汎用汎用大言語モデル(LLM)であるRO-LLaMAを提案する。
このモデルは、臨床報告の要約などの様々なタスクに適応し、放射線腫瘍専門医の幅広いワークフローをシームレスにカバーする。
また,新しいCEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Radiology-Llama2: Best-in-Class Large Language Model for Radiology [71.27700230067168]
本稿では,ラジオロジーに特化した大規模言語モデルであるRadiology-Llama2を紹介する。
MIMIC-CXRとOpenIデータセットのROUGEメトリクスを用いた定量的評価は、Radiology-Llama2が最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-08-29T17:44:28Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - A Systematic Review of Natural Language Processing Applied to Radiology
Reports [3.600747505433814]
本研究は, 放射線学報告に応用されたNLPの最近の文献を体系的に評価する。
本研究は, 放射線学的特徴, nlp法, 性能, 研究, 臨床応用特性を含む21の変数に基づく。
論文 参考訳(メタデータ) (2021-02-18T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。