論文の概要: Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4
- arxiv url: http://arxiv.org/abs/2403.05680v1
- Date: Fri, 8 Mar 2024 21:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:50:31.339103
- Title: Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4
- Title(参考訳): GPT-4を用いた自動評価のためのビジョンベースLCM予測の分解
- Authors: Qingqing Zhu, Benjamin Hou, Tejas S. Mathai, Pritam Mukherjee, Qiao
Jin, Xiuying Chen, Zhizheng Wang, Ruida Cheng, Ronald M. Summers, and Zhiyong
Lu
- Abstract要約: 世界中のCT検査の量は毎年増加しており、放射線技師のバーンアウトにつながっている。大型言語モデル(LLM)は負担軽減の可能性を秘めているが、診療所での採用は放射線技師の信頼に依存している。
我々は,CTに基づく異常の正確な要約を生成する上で,視覚言語LLMの能力を評価するための新しい評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.884877292068351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The volume of CT exams being done in the world has been rising every year,
which has led to radiologist burn-out. Large Language Models (LLMs) have the
potential to reduce their burden, but their adoption in the clinic depends on
radiologist trust, and easy evaluation of generated content. Presently, many
automated methods are available to evaluate the reports generated for chest
radiographs, but such an approach is not available for CT presently. In this
paper, we propose a novel evaluation framework to judge the capabilities of
vision-language LLMs in generating accurate summaries of CT-based
abnormalities. CT slices containing an abnormality (e.g., lesion) were input to
a vision-based LLM (GPT-4V, LLaVA-Med, and RadFM), and it generated a free-text
summary of the predicted characteristics of the abnormality. Next, a GPT-4
model decomposed the summary into specific aspects (body part, location, type,
and attributes), automatically evaluated the characteristics against the
ground-truth, and generated a score for each aspect based on its clinical
relevance and factual accuracy. These scores were then contrasted against those
obtained from a clinician, and a high correlation ( 85%, p < .001) was
observed. Although GPT-4V outperformed other models in our evaluation, it still
requires overall improvement. Our evaluation method offers valuable insights
into the specific areas that need the most enhancement, guiding future
development in this field.
- Abstract(参考訳): 世界中で行われているCT検査の量は毎年増加しており、放射線学者のバーンアウトにつながっている。
大規模言語モデル (LLM) は負担軽減の可能性を秘めているが, 診療所への導入は放射線技師の信頼と, 生成内容の簡易な評価に依存している。
近年,胸部X線撮影で発生する報告を自動で評価する手法が多数存在するが,CTではそのような手法は利用できない。
本稿では,CT に基づく異常の正確な要約を生成する上で,視覚言語 LLM の能力を評価するための新しい評価フレームワークを提案する。
異常(例えば病変)を含むCTスライスを視覚ベースのLCM(GPT-4V, LLaVA-Med, RadFM)に入力し, 異常の予測された特徴を自由テキストで要約した。
次に, GPT-4モデルを用いて, 概要を具体的側面(身体部位, 位置, タイプ, 属性)に分解し, 基礎構造に対する特徴を自動評価し, その臨床的意義と事実的正確性に基づいて各側面のスコアを生成した。
これらのスコアは臨床医から得られたスコアと対比され,高い相関(85%,p < .001)を示した。
GPT-4Vは評価において他のモデルよりも優れているが、全体的な改善が必要である。
評価手法は,この分野の今後の展開を導く上で,最も強化が必要な特定の領域に対する貴重な洞察を提供する。
関連論文リスト
- LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation [37.20505633019773]
生成された放射線学レポートを評価することは、放射線学AIの開発に不可欠である。
本研究では,大規模言語モデル (LLM) を用いた新しい評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:02:12Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Histopathologic Cancer Detection [0.0]
この作業では、PatchCamelyonベンチマークデータセットを使用して、モデルをマルチレイヤのパーセプトロンと畳み込みモデルでトレーニングし、精度の高いリコール、F1スコア、精度、AUCスコアでモデルのパフォーマンスを観察する。
また,データ拡張を伴うResNet50とInceptionNetモデルを導入し,ResNet50が最先端モデルに勝てることを示す。
論文 参考訳(メタデータ) (2023-11-13T19:51:46Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。