論文の概要: Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine
- arxiv url: http://arxiv.org/abs/2401.08396v1
- Date: Tue, 16 Jan 2024 14:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 13:47:57.325415
- Title: Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine
- Title(参考訳): GPT-4の医用ビジョンの正確性にまつわる隠された欠陥
- Authors: Qiao Jin, Fangyuan Chen, Yiliang Zhou, Ziyang Xu, Justin M. Cheung,
Robert Chen, Ronald M. Summers, Justin F. Rousseau, Peiyun Ni, Marc J
Landsman, Sally L. Baxter, Subhi J. Al'Aref, Yijia Li, Michael F. Chiang,
Yifan Peng, Zhiyong Lu
- Abstract要約: GPT-4V(Generative Pre-trained Transformer 4 with Vision)は、医学的課題において、医師よりも優れる。
本研究は,GPT-4Vのイメージ理解の理論的根拠,医用知識の想起,ステップバイステップのマルチモーダル推論を包括的に分析することにより,現在の範囲を拡大する。
- 参考スコア(独自算出の注目度): 15.929203445812506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies indicate that Generative Pre-trained Transformer 4 with Vision
(GPT-4V) outperforms human physicians in medical challenge tasks. However,
these evaluations primarily focused on the accuracy of multi-choice questions
alone. Our study extends the current scope by conducting a comprehensive
analysis of GPT-4V's rationales of image comprehension, recall of medical
knowledge, and step-by-step multimodal reasoning when solving New England
Journal of Medicine (NEJM) Image Challenges - an imaging quiz designed to test
the knowledge and diagnostic capabilities of medical professionals. Evaluation
results confirmed that GPT-4V outperforms human physicians regarding
multi-choice accuracy (88.0% vs. 77.0%, p=0.034). GPT-4V also performs well in
cases where physicians incorrectly answer, with over 80% accuracy. However, we
discovered that GPT-4V frequently presents flawed rationales in cases where it
makes the correct final choices (27.3%), most prominent in image comprehension
(21.6%). Regardless of GPT-4V's high accuracy in multi-choice questions, our
findings emphasize the necessity for further in-depth evaluations of its
rationales before integrating such models into clinical workflows.
- Abstract(参考訳): 最近の研究では、視覚(gpt-4v)を持つ生成前訓練トランスフォーマー4は、医療課題においてヒトの医師よりも優れていることが示されている。
しかし,これらの評価は,主に複数質問の精度のみに焦点が当てられた。
本研究は,GPT-4Vの画像理解,医用知識の想起,およびNew England Journal of Medicine (NEJM) Image Challenges(医用専門家の知識と診断能力をテストするための画像クイズ)の解決におけるステップバイステップのマルチモーダル推論を包括的に分析することにより,現在の範囲を拡大する。
GPT-4Vは多選択精度(88.0% vs. 77.0%, p=0.034)で医師より優れていた。
GPT-4Vは、医師が正しく答えていない場合にも80%以上の精度でうまく機能する。
しかし、GPT-4Vは、正しい最終選択を行う場合(27.3%)にしばしば欠陥のある有理性を示し、画像理解において最も顕著である(21.6%)。
GPT-4Vの多点質問における精度は高いが,本研究は,これらのモデルを臨床ワークフローに組み込む前に,より詳細な理性評価の必要性を強調した。
関連論文リスト
- GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Enhancing Medical Task Performance in GPT-4V: A Comprehensive Study on
Prompt Engineering Strategies [28.98518677093905]
OpenAIの最新大型ビジョン言語モデルであるGPT-4Vは、医療応用の可能性についてかなりの関心を集めている。
最近の研究や内部レビューでは、専門的な医療業務における過小評価が強調されている。
本稿では,GPT-4Vの医療機能の境界,特に内視鏡,CT,MRIなどの複雑な画像データ処理について検討する。
論文 参考訳(メタデータ) (2023-12-07T15:05:59Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - GPT-4V(ision) Unsuitable for Clinical Care and Education: A Clinician-Evaluated Assessment [6.321623278767821]
GPT-4Vは画像の一般的な解釈のために最近開発された。
また, GPT-4Vの熟練度は, 様々な医療条件で評価された。
GPT-4Vの診断精度と臨床的意思決定能力は乏しく、患者の安全性にリスクをもたらす。
論文 参考訳(メタデータ) (2023-11-14T17:06:09Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Multimodal ChatGPT for Medical Applications: an Experimental Study of
GPT-4V [20.84152508192388]
我々は、最先端のマルチモーダル言語モデルであるGPT-4 with Vision(GPT-4V)の能力について批判的に評価する。
本実験は,画像と組み合わせた問診におけるGPT-4Vの習熟度を,病理と放射線学の両方のデータセットを用いて徹底的に評価した。
精度試験の結果、GPT-4Vの現在のバージョンは現実世界の診断には推奨されないことがわかった。
論文 参考訳(メタデータ) (2023-10-29T16:26:28Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z) - COVID-Net USPro: An Open-Source Explainable Few-Shot Deep Prototypical
Network to Monitor and Detect COVID-19 Infection from Point-of-Care
Ultrasound Images [66.63200823918429]
COVID-Net USProは、最小限の超音波画像から高精度で新型コロナウイルス陽性の患者を監視し、検出する。
ネットワーク全体では99.65%の精度、99.7%のリコール、99.67%の精度で5発の撮影で訓練された。
論文 参考訳(メタデータ) (2023-01-04T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。