論文の概要: Performance of GPT-5 in Brain Tumor MRI Reasoning
- arxiv url: http://arxiv.org/abs/2508.10865v1
- Date: Thu, 14 Aug 2025 17:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.433062
- Title: Performance of GPT-5 in Brain Tumor MRI Reasoning
- Title(参考訳): 脳腫瘍MRIにおけるGPT-5の有用性
- Authors: Mojtaba Safari, Shansong Wang, Mingzhe Hu, Zach Eidex, Qiang Li, Xiaofeng Yang,
- Abstract要約: 大規模言語モデル(LLM)は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にした。
GPT-4o, GPT-5-nano, GPT-5-mini, GPT-5を脳腫瘍VQAで評価した。
その結果, GPT-5-miniのマクロ平均精度は44.19%, GPT-5は43.71%, GPT-4oは41.49%, GPT-5-nanoは35.85%であった。
- 参考スコア(独自算出の注目度): 4.156123728258067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate differentiation of brain tumor types on magnetic resonance imaging (MRI) is critical for guiding treatment planning in neuro-oncology. Recent advances in large language models (LLMs) have enabled visual question answering (VQA) approaches that integrate image interpretation with natural language reasoning. In this study, we evaluated GPT-4o, GPT-5-nano, GPT-5-mini, and GPT-5 on a curated brain tumor VQA benchmark derived from 3 Brain Tumor Segmentation (BraTS) datasets - glioblastoma (GLI), meningioma (MEN), and brain metastases (MET). Each case included multi-sequence MRI triplanar mosaics and structured clinical features transformed into standardized VQA items. Models were assessed in a zero-shot chain-of-thought setting for accuracy on both visual and reasoning tasks. Results showed that GPT-5-mini achieved the highest macro-average accuracy (44.19%), followed by GPT-5 (43.71%), GPT-4o (41.49%), and GPT-5-nano (35.85%). Performance varied by tumor subtype, with no single model dominating across all cohorts. These findings suggest that GPT-5 family models can achieve moderate accuracy in structured neuro-oncological VQA tasks, but not at a level acceptable for clinical use.
- Abstract(参考訳): 核磁気共鳴画像(MRI)における脳腫瘍の正確な分化は、神経腫瘍学における治療計画の導出に重要である。
大規模言語モデル(LLM)の最近の進歩は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にしている。
本研究では,GPT-4o,GPT-5-nano,GPT-5-mini,GPT-5を,Glioblastoma(GLI),髄膜腫(MEN),脳転移(MET)の3つのデータセットから得られた脳腫瘍VQAベンチマークを用いて評価した。
症例は, マルチシークエンスMRIトリプラナーモザイクと, 標準VQA項目に転換した構造的臨床像であった。
モデルはゼロショットチェーンで評価され、視覚的タスクと推論タスクの両方で精度が評価された。
その結果、GPT-5-miniは最高マクロ平均精度(44.19%)、GPT-5(43.71%)、GPT-4o(41.49%)、GPT-5-nano(35.85%)を達成した。
腫瘍のサブタイプによってパフォーマンスが変化し、全てのコホートに1つのモデルが支配的になることはなかった。
これらの結果から, GPT-5ファミリーモデルでは, 構造化神経腫瘍学的VQAタスクでは適度な精度が得られたが, 臨床応用には適さないことが示唆された。
関連論文リスト
- Capabilities of GPT-5 on Multimodal Medical Reasoning [4.403894457826502]
本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文 参考訳(メタデータ) (2025-08-11T17:43:45Z) - Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文 参考訳(メタデータ) (2025-07-02T01:35:59Z) - Towards a general-purpose foundation model for fMRI analysis [58.06455456423138]
我々は,4次元fMRIボリュームから学習し,多様なアプリケーション間で効率的な知識伝達を可能にするフレームワークであるNeuroSTORMを紹介する。
NeuroSTORMは、複数のセンターにまたがる5万人以上の被験者から5歳から100歳までの28.65万fMRIフレーム(→9000時間)で事前トレーニングされている。
年齢/性別予測、表現型予測、疾患診断、fMRI-to-image検索、タスクベースのfMRIの5つのタスクにおいて、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-06-11T23:51:01Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - Comparison of Machine Learning Classifiers to Predict Patient Survival
and Genetics of GBM: Towards a Standardized Model for Clinical Implementation [44.02622933605018]
放射線モデルは、グリオ芽腫(GBM)の結果予測のための臨床データを上回ることが示されています。
GBM患者の生存率(OS),IDH変異,O-6-メチルグアニン-DNA-メチルトランスフェラーゼ(MGMT)プロモーターメチル化,EGFR(EGFR)VII増幅,Ki-67発現の9種類の機械学習分類器を比較した。
xgb は os (74.5%), ab for idh 変異 (88%), mgmt メチル化 (71,7%), ki-67 発現 (86,6%), egfr増幅 (81。
論文 参考訳(メタデータ) (2021-02-10T15:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。