論文の概要: Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology
- arxiv url: http://arxiv.org/abs/2508.13192v1
- Date: Fri, 15 Aug 2025 16:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.643602
- Title: Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology
- Title(参考訳): 放射線・放射線オンコロジーにおけるゼロショットマルチモーダル医療推論のためのGPT-5のベンチマーク
- Authors: Mingzhe Hu, Zach Eidex, Shansong Wang, Mojtaba Safari, Qiang Li, Xiaofeng Yang,
- Abstract要約: GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。
全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。
GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
- 参考スコア(独自算出の注目度): 4.156123728258067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology, radiation oncology, and medical physics require decision-making that integrates medical images, textual reports, and quantitative data under high-stakes conditions. With the introduction of GPT-5, it is critical to assess whether recent advances in large multimodal models translate into measurable gains in these safety-critical domains. We present a targeted zero-shot evaluation of GPT-5 and its smaller variants (GPT-5-mini, GPT-5-nano) against GPT-4o across three representative tasks. We present a targeted zero-shot evaluation of GPT-5 and its smaller variants (GPT-5-mini, GPT-5-nano) against GPT-4o across three representative tasks: (1) VQA-RAD, a benchmark for visual question answering in radiology; (2) SLAKE, a semantically annotated, multilingual VQA dataset testing cross-modal grounding; and (3) a curated Medical Physics Board Examination-style dataset of 150 multiple-choice questions spanning treatment planning, dosimetry, imaging, and quality assurance. Across all datasets, GPT-5 achieved the highest accuracy, with substantial gains over GPT-4o up to +20.00% in challenging anatomical regions such as the chest-mediastinal, +13.60% in lung-focused questions, and +11.44% in brain-tissue interpretation. On the board-style physics questions, GPT-5 attained 90.7% accuracy (136/150), exceeding the estimated human passing threshold, while GPT-4o trailed at 78.0%. These results demonstrate that GPT-5 delivers consistent and often pronounced performance improvements over GPT-4o in both image-grounded reasoning and domain-specific numerical problem-solving, highlighting its potential to augment expert workflows in medical imaging and therapeutic physics.
- Abstract(参考訳): 放射線医学、放射線腫瘍学、医学物理学は、医療画像、テキストレポート、および高吸収条件下での定量的データを統合する意思決定を必要とする。
GPT-5の導入により、大規模マルチモーダルモデルの最近の進歩がこれらの安全クリティカルドメインの可測ゲインに変換されるかどうかを評価することが重要である。
GPT-5 と GPT-5-mini, GPT-5-nano の 3 つの課題を対象としたゼロショット評価を行った。
本稿では,GPT-5とGPT-5-mini, GPT-5-nanoの3つの課題に対して,(1)VQA-RAD,(2)VQA-RAD,(2)意味論的注釈付き多言語VQAデータセット,(3)治療計画,ドシメトリー,イメージング,品質保証を含む150項目の多点質問を対象とする評価を行った。
すべてのデータセットにおいて、GPT-5は最高精度に達し、GPT-4oは胸縦隔などの解剖学的領域で+20.00%、肺に焦点を絞った質問では+13.60%、脳の解剖学的解釈では+11.44%まで上昇した。
ボード式物理学の質問では、GPT-5は90.7%の精度(136/150)に達し、人間の通過閾値を上回り、GPT-4oは78.0%であった。
これらの結果から, GPT-5は画像基底推論と領域固有数値解法の両方においてGPT-4oよりも一貫した, しばしば顕著な性能向上を実現し, 医用画像や治療物理学における専門的ワークフローの強化の可能性を強調した。
関連論文リスト
- Is ChatGPT-5 Ready for Mammogram VQA? [4.156123728258067]
GPT-5は一貫して最高のパフォーマンスモデルであったが、人間の専門家とドメイン固有の細調整モデルの両方に遅れを取っていた。
GPT-5は、タスクのスクリーニングに有望な能力を示すが、ハイテイクな臨床画像アプリケーションでは、その性能は依然として不十分である。
論文 参考訳(メタデータ) (2025-08-15T17:56:24Z) - Performance of GPT-5 in Brain Tumor MRI Reasoning [4.156123728258067]
大規模言語モデル(LLM)は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にした。
GPT-4o, GPT-5-nano, GPT-5-mini, GPT-5を脳腫瘍VQAで評価した。
その結果, GPT-5-miniのマクロ平均精度は44.19%, GPT-5は43.71%, GPT-4oは41.49%, GPT-5-nanoは35.85%であった。
論文 参考訳(メタデータ) (2025-08-14T17:35:31Z) - Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - Capabilities of GPT-5 on Multimodal Medical Reasoning [4.403894457826502]
本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文 参考訳(メタデータ) (2025-08-11T17:43:45Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。