論文の概要: Capabilities of GPT-5 on Multimodal Medical Reasoning
- arxiv url: http://arxiv.org/abs/2508.08224v2
- Date: Wed, 13 Aug 2025 05:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 11:55:47.619825
- Title: Capabilities of GPT-5 on Multimodal Medical Reasoning
- Title(参考訳): マルチモーダル医療推論におけるGPT-5の機能
- Authors: Shansong Wang, Mingzhe Hu, Qiang Li, Mojtaba Safari, Xiaofeng Yang,
- Abstract要約: 本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
- 参考スコア(独自算出の注目度): 4.403894457826502
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled general-purpose systems to perform increasingly complex domain-specific reasoning without extensive fine-tuning. In the medical domain, decision-making often requires integrating heterogeneous information sources, including patient narratives, structured data, and medical images. This study positions GPT-5 as a generalist multimodal reasoner for medical decision support and systematically evaluates its zero-shot chain-of-thought reasoning performance on both text-based question answering and visual question answering tasks under a unified protocol. We benchmark GPT-5, GPT-5-mini, GPT-5-nano, and GPT-4o-2024-11-20 against standardized splits of MedQA, MedXpertQA (text and multimodal), MMLU medical subsets, USMLE self-assessment exams, and VQA-RAD. Results show that GPT-5 consistently outperforms all baselines, achieving state-of-the-art accuracy across all QA benchmarks and delivering substantial gains in multimodal reasoning. On MedXpertQA MM, GPT-5 improves reasoning and understanding scores by +29.26% and +26.18% over GPT-4o, respectively, and surpasses pre-licensed human experts by +24.23% in reasoning and +29.40% in understanding. In contrast, GPT-4o remains below human expert performance in most dimensions. A representative case study demonstrates GPT-5's ability to integrate visual and textual cues into a coherent diagnostic reasoning chain, recommending appropriate high-stakes interventions. Our results show that, on these controlled multimodal reasoning benchmarks, GPT-5 moves from human-comparable to above human-expert performance. This improvement may substantially inform the design of future clinical decision-support systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、汎用システムはより複雑なドメイン固有推論を広範囲の微調整なしに実行できるようになった。
医療分野では、意思決定は患者物語、構造化データ、医療画像などの異種情報ソースを統合する必要があることが多い。
本研究は,GPT-5を医用意思決定支援の汎用的マルチモーダル推論器として位置づけ,テキストベースの質問応答と視覚的質問応答の両タスクにおけるゼロショット連鎖推論性能を統一的プロトコル下で体系的に評価する。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
その結果、GPT-5は全てのベースラインを一貫して上回り、全てのQAベンチマークで最先端の精度を達成し、マルチモーダル推論においてかなりの利益をもたらすことがわかった。
MedXpertQA MM では、GPT-5 は GPT-4o よりも +29.26% と +26.18% の推論と理解のスコアを改善し、事前ライセンスされた人間の専門家を +24.23% の推論と +29.40% の理解で上回っている。
対照的に、GPT-4oは、ほとんどの次元において人間の専門家のパフォーマンスより低いままである。
代表的なケーススタディでは、GPT-5の視覚的およびテキスト的手がかりをコヒーレントな診断推論チェーンに統合する能力を示し、適切なハイテイク介入を推奨している。
これらの制御されたマルチモーダル推論ベンチマークにおいて, GPT-5 は人間に比較可能な性能から人間に比較可能な性能に移行した。
この改善は将来の臨床診断支援システムの設計に大きな影響を与える可能性がある。
関連論文リスト
- Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary [36.736436091313585]
この注釈書は、GPT-5ファミリー(GPT-5, GPT-5 Mini, GPT-5 Nano)の最初の制御された横断的な評価である。
GPT-5は、MedXpertQAの25ポイントを超える絶対的な改善により、専門家レベルのテキスト推論において著しく向上した。
マルチモーダル合成を課題とする場合、GPT-5はこの強化された推論能力を有効活用し、具体的な画像証拠に不確実な臨床物語を根拠とした。
論文 参考訳(メタデータ) (2026-03-05T03:24:48Z) - OMGs: A multi-agent system supporting MDT decision-making across the ovarian tumour care continuum [51.97232679580821]
卵巣腫瘍管理はMDT(multidisciplinary tumour board)の審議にますます依存している。
世界中のほとんどの患者は、タイムリーな専門家のコンセンサスにアクセスできない。
ここでは,多エージェントAIフレームワークであるOMG(Ovarian tumour Multidisciplinary intelligent aGent System)を紹介する。
論文 参考訳(メタデータ) (2026-02-14T14:13:10Z) - OpenAI GPT-5 System Card [247.27796140570612]
GPT-5は、多くの質問に答えるスマートで高速なモデルを備えた統一システムである。
リアルタイムルータは、会話タイプ、複雑さ、ツールニーズ、明示的な意図に基づいて使用するモデルを決定する。
利用制限に達すると、各モデルのミニバージョンが残りのクエリを処理する。
論文 参考訳(メタデータ) (2025-12-19T07:05:38Z) - Benchmarking GPT-5 for biomedical natural language processing [17.663813433200122]
本研究は,GPT-5とGPT-4oを5つの中核生物医学的NLPタスクで評価するための統一ベンチマークを拡張した。
GPT-5 は一貫して GPT-4o を上回り、推論集約データセットで最大の利益を得た。
論文 参考訳(メタデータ) (2025-08-28T13:06:53Z) - Capabilities of GPT-5 across critical domains: Is it the next breakthrough? [0.0]
OpenAIによるGPT-4は、推論、マルチモーダリティ、タスクの一般化の進歩をもたらした。
GPT-5は2025年8月にリリースされ、タスク固有の最適化のために設計されたシステム・オブ・モデルアーキテクチャが組み込まれている。
本研究は,GPT-4とGPT-5を言語学および臨床分野からヒトラッカーを用いて比較した最初の体系的比較例である。
論文 参考訳(メタデータ) (2025-08-16T12:26:11Z) - Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology [4.156123728258067]
GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。
全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。
GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2025-08-15T16:14:51Z) - Performance of GPT-5 in Brain Tumor MRI Reasoning [4.156123728258067]
大規模言語モデル(LLM)は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にした。
GPT-4o, GPT-5-nano, GPT-5-mini, GPT-5を脳腫瘍VQAで評価した。
その結果, GPT-5-miniのマクロ平均精度は44.19%, GPT-5は43.71%, GPT-4oは41.49%, GPT-5-nanoは35.85%であった。
論文 参考訳(メタデータ) (2025-08-14T17:35:31Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine [15.491432387608112]
GPT-4V(Generative Pre-trained Transformer 4 with Vision)は、医学的課題において、医師よりも優れる。
本研究は,GPT-4Vのイメージ理解の理論的根拠,医用知識の想起,ステップバイステップのマルチモーダル推論を包括的に分析することにより,現在の範囲を拡大する。
論文 参考訳(メタデータ) (2024-01-16T14:41:20Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Multimodal ChatGPT for Medical Applications: an Experimental Study of
GPT-4V [20.84152508192388]
我々は、最先端のマルチモーダル言語モデルであるGPT-4 with Vision(GPT-4V)の能力について批判的に評価する。
本実験は,画像と組み合わせた問診におけるGPT-4Vの習熟度を,病理と放射線学の両方のデータセットを用いて徹底的に評価した。
精度試験の結果、GPT-4Vの現在のバージョンは現実世界の診断には推奨されないことがわかった。
論文 参考訳(メタデータ) (2023-10-29T16:26:28Z) - Capabilities of GPT-4 on Medical Challenge Problems [23.399857819743158]
GPT-4は、訓練や臨床課題の解決を通じて医療上の問題に特化しない汎用モデルである。
本稿では,GPT-4の総合的な評価を医学的能力試験とベンチマーク・データセットで行う。
論文 参考訳(メタデータ) (2023-03-20T16:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。