Fugu-MT 論文翻訳(概要): Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4

論文の概要: Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4

arxiv url: http://arxiv.org/abs/2403.05680v1
Date: Fri, 8 Mar 2024 21:16:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 12:50:31.339103
Title: Decomposing Vision-based LLM Predictions for Auto-Evaluation with GPT-4
Title（参考訳）: GPT-4を用いた自動評価のためのビジョンベースLCM予測の分解
Authors: Qingqing Zhu, Benjamin Hou, Tejas S. Mathai, Pritam Mukherjee, Qiao Jin, Xiuying Chen, Zhizheng Wang, Ruida Cheng, Ronald M. Summers, and Zhiyong Lu
Abstract要約: 世界中のCT検査の量は毎年増加しており、放射線技師のバーンアウトにつながっている。大型言語モデル(LLM)は負担軽減の可能性を秘めているが、診療所での採用は放射線技師の信頼に依存している。我々は,CTに基づく異常の正確な要約を生成する上で,視覚言語LLMの能力を評価するための新しい評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 14.884877292068351
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The volume of CT exams being done in the world has been rising every year, which has led to radiologist burn-out. Large Language Models (LLMs) have the potential to reduce their burden, but their adoption in the clinic depends on radiologist trust, and easy evaluation of generated content. Presently, many automated methods are available to evaluate the reports generated for chest radiographs, but such an approach is not available for CT presently. In this paper, we propose a novel evaluation framework to judge the capabilities of vision-language LLMs in generating accurate summaries of CT-based abnormalities. CT slices containing an abnormality (e.g., lesion) were input to a vision-based LLM (GPT-4V, LLaVA-Med, and RadFM), and it generated a free-text summary of the predicted characteristics of the abnormality. Next, a GPT-4 model decomposed the summary into specific aspects (body part, location, type, and attributes), automatically evaluated the characteristics against the ground-truth, and generated a score for each aspect based on its clinical relevance and factual accuracy. These scores were then contrasted against those obtained from a clinician, and a high correlation ( 85%, p < .001) was observed. Although GPT-4V outperformed other models in our evaluation, it still requires overall improvement. Our evaluation method offers valuable insights into the specific areas that need the most enhancement, guiding future development in this field.
Abstract（参考訳）: 世界中で行われているCT検査の量は毎年増加しており、放射線学者のバーンアウトにつながっている。大規模言語モデル (LLM) は負担軽減の可能性を秘めているが, 診療所への導入は放射線技師の信頼と, 生成内容の簡易な評価に依存している。近年,胸部X線撮影で発生する報告を自動で評価する手法が多数存在するが,CTではそのような手法は利用できない。本稿では,CT に基づく異常の正確な要約を生成する上で,視覚言語 LLM の能力を評価するための新しい評価フレームワークを提案する。異常(例えば病変)を含むCTスライスを視覚ベースのLCM(GPT-4V, LLaVA-Med, RadFM)に入力し, 異常の予測された特徴を自由テキストで要約した。次に, GPT-4モデルを用いて, 概要を具体的側面(身体部位, 位置, タイプ, 属性)に分解し, 基礎構造に対する特徴を自動評価し, その臨床的意義と事実的正確性に基づいて各側面のスコアを生成した。これらのスコアは臨床医から得られたスコアと対比され,高い相関(85%,p < .001)を示した。 GPT-4Vは評価において他のモデルよりも優れているが、全体的な改善が必要である。評価手法は,この分野の今後の展開を導く上で,最も強化が必要な特定の領域に対する貴重な洞察を提供する。

関連論文リスト

Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。 300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文参考訳（メタデータ） (2025-07-02T01:35:59Z)
GEMA-Score: Granular Explainable Multi-Agent Score for Radiology Report Evaluation [8.071354543390274]
本稿では,粒状説明可能マルチエージェントスコア(GEMA-Score)を提案する。 GEMA-Scoreは大規模言語モデルに基づくマルチエージェントワークフローを通じて客観的定量化と主観評価を行う。実験により、GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成できることが示された。
論文参考訳（メタデータ） (2025-03-07T11:42:22Z)
Preference Fine-Tuning for Factuality in Chest X-Ray Interpretation Models Without Human Feedback [10.826651024680169]
放射線技師は医療画像を医療報告に翻訳することで重要な役割を担っている。視覚言語モデル(VLM)を用いた自動アプローチは、アシスタントとして有望であるが、非常に高い精度を必要とする。胸部X線(CXR)レポート生成に着目し,放射線学におけるVLMの自動選好アライメント手法を提案する。
論文参考訳（メタデータ） (2024-10-09T16:07:11Z)
LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation [37.20505633019773]
生成された放射線学レポートを評価することは、放射線学AIの開発に不可欠である。本研究では,大規模言語モデル (LLM) を用いた新しい評価手法を提案する。
論文参考訳（メタデータ） (2024-04-01T09:02:12Z)
Leveraging Professional Radiologists' Expertise to Enhance LLMs' Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文参考訳（メタデータ） (2024-01-29T21:24:43Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文参考訳（メタデータ） (2023-11-27T11:29:10Z)
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。 GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文参考訳（メタデータ） (2023-10-31T11:39:09Z)
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。 Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文参考訳（メタデータ） (2023-10-12T16:50:08Z)
Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。集中型コーパスでのLLMのトレーニングは、計算上の課題を提起する。別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。 OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルを比較した。
論文参考訳（メタデータ） (2023-05-26T17:33:05Z)
Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty [52.03490691733464]
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。 DeviSには不確実性を考慮したフィルタリングモジュールが組み込まれている。
論文参考訳（メタデータ） (2023-01-01T05:02:46Z)
Data-Efficient Vision Transformers for Multi-Label Disease Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。 ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文参考訳（メタデータ） (2022-08-17T09:07:45Z)
Deep learning in magnetic resonance prostate segmentation: A review and a new perspective [4.453410156617238]
MR前立腺セグメンテーションにおける最先端のディープラーニングアルゴリズムについて概説する。その限界と強みを議論することで、この分野に洞察を与えます。 MR前立腺セグメンテーションのための最適化された2次元U-Netを提案する。
論文参考訳（メタデータ） (2020-11-16T08:58:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。