論文の概要: Accuracy of a Vision-Language Model on Challenging Medical Cases
- arxiv url: http://arxiv.org/abs/2311.05591v1
- Date: Thu, 9 Nov 2023 18:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 13:59:08.803457
- Title: Accuracy of a Vision-Language Model on Challenging Medical Cases
- Title(参考訳): 難治医療における視覚言語モデルの正確性
- Authors: Thomas Buckley, James A. Diao, Adam Rodman, Arjun K. Manrai
- Abstract要約: テキストと画像の両方を利用する汎用的な大規模言語モデルは、様々な困難な医療事例において評価されていない。
我々は最近リリースされたGPT-4V(Generative Pre-trained Transformer 4 with Vision Model)の精度を,ヒトと比較して評価した。
また,69回のNEJMクリニカル・コンファレンスでGPT-4Vの医師評価を行った。
- 参考スコア(独自算出の注目度): 1.7726473251723847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: General-purpose large language models that utilize both text and
images have not been evaluated on a diverse array of challenging medical cases.
Methods: Using 934 cases from the NEJM Image Challenge published between 2005
and 2023, we evaluated the accuracy of the recently released Generative
Pre-trained Transformer 4 with Vision model (GPT-4V) compared to human
respondents overall and stratified by question difficulty, image type, and skin
tone. We further conducted a physician evaluation of GPT-4V on 69 NEJM
clinicopathological conferences (CPCs). Analyses were conducted for models
utilizing text alone, images alone, and both text and images.
Results: GPT-4V achieved an overall accuracy of 61% (95% CI, 58 to 64%)
compared to 49% (95% CI, 49 to 50%) for humans. GPT-4V outperformed humans at
all levels of difficulty and disagreement, skin tones, and image types; the
exception was radiographic images, where performance was equivalent between
GPT-4V and human respondents. Longer, more informative captions were associated
with improved performance for GPT-4V but similar performance for human
respondents. GPT-4V included the correct diagnosis in its differential for 80%
(95% CI, 68 to 88%) of CPCs when using text alone, compared to 58% (95% CI, 45
to 70%) of CPCs when using both images and text.
Conclusions: GPT-4V outperformed human respondents on challenging medical
cases and was able to synthesize information from both images and text, but
performance deteriorated when images were added to highly informative text.
Overall, our results suggest that multimodal AI models may be useful in medical
diagnostic reasoning but that their accuracy may depend heavily on context.
- Abstract(参考訳): 背景: テキストと画像の両方を利用する汎用大規模言語モデルは、様々な挑戦的な医療事例で評価されていない。
方法: 2005年から2023年にかけて公表されたnejm画像チャレンジの934例を用いて視覚モデル(gpt-4v)を用いた生成前訓練トランスフォーマ4の正確性を評価し,質問難易度,画像タイプ,皮膚トーンによる階層化を行った。
さらに,69 NEJM 臨床病理学的カンファレンス (CPCs) における GPT-4V の評価を行った。
テキストのみ、画像のみ、およびテキストと画像の両方を利用したモデルの解析を行った。
結果: GPT-4Vは全体の精度が61% (95% CI, 58~64%) であり, ヒトでは49% (95% CI, 49~50%) であった。
gpt-4vは、あらゆる難易度、不一致、肌色、画像タイプで人間を上回り、例外は、gpt-4vとヒトの回答者の間でパフォーマンスが同等であった放射線画像であった。
GPT-4Vの性能は向上したが,ヒトでは同等であった。
gpt-4vでは、テキストのみを使用する場合のcpcの80% (95% ci, 68から88%) と、画像とテキストの両方を使用する場合のcpcの58% (95% ci, 45から70%) が正しい診断であった。
結論: gpt-4vは, 難治な医療症例において, 被験者を上回っており, 画像とテキストの両方から情報を合成することができたが, 高情報テキストに画像を追加すると, 性能が低下した。
以上の結果から,マルチモーダルAIモデルは診断的推論に有用であるが,精度は文脈に大きく依存する可能性が示唆された。
関連論文リスト
- An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。
Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。
本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-02T08:29:23Z) - The Development and Performance of a Machine Learning Based Mobile
Platform for Visually Determining the Etiology of Penile Pathology [0.0]
我々は5つのペニス病を分類する機械学習モデルを開発した。
このモデルは現在世界中で使用されており、ペニス病の診断サービスへのアクセスを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-13T11:05:40Z) - Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine [15.491432387608112]
GPT-4V(Generative Pre-trained Transformer 4 with Vision)は、医学的課題において、医師よりも優れる。
本研究は,GPT-4Vのイメージ理解の理論的根拠,医用知識の想起,ステップバイステップのマルチモーダル推論を包括的に分析することにより,現在の範囲を拡大する。
論文 参考訳(メタデータ) (2024-01-16T14:41:20Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Multimodal ChatGPT for Medical Applications: an Experimental Study of
GPT-4V [20.84152508192388]
我々は、最先端のマルチモーダル言語モデルであるGPT-4 with Vision(GPT-4V)の能力について批判的に評価する。
本実験は,画像と組み合わせた問診におけるGPT-4Vの習熟度を,病理と放射線学の両方のデータセットを用いて徹底的に評価した。
精度試験の結果、GPT-4Vの現在のバージョンは現実世界の診断には推奨されないことがわかった。
論文 参考訳(メタデータ) (2023-10-29T16:26:28Z) - Improving image quality of sparse-view lung tumor CT images with U-Net [3.5655865803527718]
肺転移検出のためのU-Netを用いて,スパースビューCT画像の画質向上を目的とした。
プロジェクションビューは、IQを維持しながら2,048から64に減少し、良好なレベルで放射線学者の信頼性を維持することができる。
論文 参考訳(メタデータ) (2023-07-28T12:03:55Z) - COVID-Net USPro: An Open-Source Explainable Few-Shot Deep Prototypical
Network to Monitor and Detect COVID-19 Infection from Point-of-Care
Ultrasound Images [66.63200823918429]
COVID-Net USProは、最小限の超音波画像から高精度で新型コロナウイルス陽性の患者を監視し、検出する。
ネットワーク全体では99.65%の精度、99.7%のリコール、99.67%の精度で5発の撮影で訓練された。
論文 参考訳(メタデータ) (2023-01-04T16:05:51Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - A novel multiple instance learning framework for COVID-19 severity
assessment via data augmentation and self-supervised learning [64.90342559393275]
新型コロナウイルスの重症度を迅速かつ正確に評価する方法は、世界中の何百万人もの人々がパンデミックに苦しんでいる場合に必要不可欠な問題だ。
CT画像による新型コロナウイルスの重症度自動評価を妨害する可能性のある、弱いアノテーションと不十分なデータという2つの問題があることを観察する。
平均精度は95.8%で、感度は93.6%、特異性は96.4%で、前作より優れていた。
論文 参考訳(メタデータ) (2021-02-07T16:30:18Z) - Integrative Analysis for COVID-19 Patient Outcome Prediction [53.11258640541513]
我々は、集中治療室入院の必要性を予測するために、人口統計、バイタルサイン、実験室の所見から、肺不透明度の放射能と非画像の特徴を組み合わせる。
また, 地域性肺炎を含む他の肺疾患にも適用できるが, 地域性肺炎に限らない。
論文 参考訳(メタデータ) (2020-07-20T19:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。