Fugu-MT 論文翻訳(概要): Performance of GPT-5 in Brain Tumor MRI Reasoning

論文の概要: Performance of GPT-5 in Brain Tumor MRI Reasoning

arxiv url: http://arxiv.org/abs/2508.10865v1
Date: Thu, 14 Aug 2025 17:35:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-15 22:24:48.433062
Title: Performance of GPT-5 in Brain Tumor MRI Reasoning
Title（参考訳）: 脳腫瘍MRIにおけるGPT-5の有用性
Authors: Mojtaba Safari, Shansong Wang, Mingzhe Hu, Zach Eidex, Qiang Li, Xiaofeng Yang,
Abstract要約: 大規模言語モデル(LLM)は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にした。 GPT-4o, GPT-5-nano, GPT-5-mini, GPT-5を脳腫瘍VQAで評価した。その結果, GPT-5-miniのマクロ平均精度は44.19%, GPT-5は43.71%, GPT-4oは41.49%, GPT-5-nanoは35.85%であった。
参考スコア（独自算出の注目度）: 4.156123728258067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate differentiation of brain tumor types on magnetic resonance imaging (MRI) is critical for guiding treatment planning in neuro-oncology. Recent advances in large language models (LLMs) have enabled visual question answering (VQA) approaches that integrate image interpretation with natural language reasoning. In this study, we evaluated GPT-4o, GPT-5-nano, GPT-5-mini, and GPT-5 on a curated brain tumor VQA benchmark derived from 3 Brain Tumor Segmentation (BraTS) datasets - glioblastoma (GLI), meningioma (MEN), and brain metastases (MET). Each case included multi-sequence MRI triplanar mosaics and structured clinical features transformed into standardized VQA items. Models were assessed in a zero-shot chain-of-thought setting for accuracy on both visual and reasoning tasks. Results showed that GPT-5-mini achieved the highest macro-average accuracy (44.19%), followed by GPT-5 (43.71%), GPT-4o (41.49%), and GPT-5-nano (35.85%). Performance varied by tumor subtype, with no single model dominating across all cohorts. These findings suggest that GPT-5 family models can achieve moderate accuracy in structured neuro-oncological VQA tasks, but not at a level acceptable for clinical use.
Abstract（参考訳）: 核磁気共鳴画像(MRI)における脳腫瘍の正確な分化は、神経腫瘍学における治療計画の導出に重要である。大規模言語モデル(LLM)の最近の進歩は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にしている。本研究では,GPT-4o,GPT-5-nano,GPT-5-mini,GPT-5を,Glioblastoma(GLI),髄膜腫(MEN),脳転移(MET)の3つのデータセットから得られた脳腫瘍VQAベンチマークを用いて評価した。症例は, マルチシークエンスMRIトリプラナーモザイクと, 標準VQA項目に転換した構造的臨床像であった。モデルはゼロショットチェーンで評価され、視覚的タスクと推論タスクの両方で精度が評価された。その結果、GPT-5-miniは最高マクロ平均精度(44.19%)、GPT-5(43.71%)、GPT-4o(41.49%)、GPT-5-nano(35.85%)を達成した。腫瘍のサブタイプによってパフォーマンスが変化し、全てのコホートに1つのモデルが支配的になることはなかった。これらの結果から, GPT-5ファミリーモデルでは, 構造化神経腫瘍学的VQAタスクでは適度な精度が得られたが, 臨床応用には適さないことが示唆された。

関連論文リスト

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary [36.736436091313585]
この注釈書は、GPT-5ファミリー(GPT-5, GPT-5 Mini, GPT-5 Nano)の最初の制御された横断的な評価である。 GPT-5は、MedXpertQAの25ポイントを超える絶対的な改善により、専門家レベルのテキスト推論において著しく向上した。マルチモーダル合成を課題とする場合、GPT-5はこの強化された推論能力を有効活用し、具体的な画像証拠に不確実な臨床物語を根拠とした。
論文参考訳（メタデータ） (2026-03-05T03:24:48Z)
MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images [0.0]
本研究では、オープンソースエージェントMedGemmaとプロプライエタリな大規模マルチモーダルモデルGPT-4の2つの基本的異なるAIアーキテクチャの比較を示す。 Low-Rank Adaptation (LoRA) を用いて微調整したMedGemma-4b-itモデルでは, 平均試験精度80.37%を達成し, 優れた診断能力を示した。これらの結果は, 臨床実践における幻覚の最小化にドメイン特異的微調整が不可欠であることを強調し, MedGemmaを複雑でエビデンスに基づく医学的推論のための高度なツールとして位置づけた。
論文参考訳（メタデータ） (2025-12-29T08:48:36Z)
Computational Imaging Meets LLMs: Zero-Shot IDH Mutation Prediction in Brain Gliomas [0.34983827101872134]
本稿では,脳グリオーマにおける突然変異状態の非侵襲的ゼロショット予測のための大規模言語モデルと計算画像解析を組み合わせたフレームワークを提案する。このフレームワークを6つの公開データセット(N=1427)で評価し,高い精度とバランスの取れた分類性能を示した。
論文参考訳（メタデータ） (2025-11-05T11:31:08Z)
Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology [4.156123728258067]
GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。 GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
論文参考訳（メタデータ） (2025-08-15T16:14:51Z)
Capabilities of GPT-5 on Multimodal Medical Reasoning [4.403894457826502]
本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。 GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文参考訳（メタデータ） (2025-08-11T17:43:45Z)
Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。 300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文参考訳（メタデータ） (2025-07-02T01:35:59Z)
Towards a general-purpose foundation model for fMRI analysis [58.06455456423138]
我々は,4次元fMRIボリュームから学習し,多様なアプリケーション間で効率的な知識伝達を可能にするフレームワークであるNeuroSTORMを紹介する。 NeuroSTORMは、複数のセンターにまたがる5万人以上の被験者から5歳から100歳までの28.65万fMRIフレーム(→9000時間)で事前トレーニングされている。年齢/性別予測、表現型予測、疾患診断、fMRI-to-image検索、タスクベースのfMRIの5つのタスクにおいて、既存の手法よりも優れています。
論文参考訳（メタデータ） (2025-06-11T23:51:01Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。 GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。 GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文参考訳（メタデータ） (2024-03-08T21:16:28Z)
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。 GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文参考訳（メタデータ） (2023-10-31T11:39:09Z)
Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文参考訳（メタデータ） (2023-10-23T05:13:03Z)
Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。評価対象は17の人体システムである。 GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。疾患の診断と包括的報告作成において重大な課題に直面している。
論文参考訳（メタデータ） (2023-10-15T18:32:27Z)
Comparison of Machine Learning Classifiers to Predict Patient Survival and Genetics of GBM: Towards a Standardized Model for Clinical Implementation [44.02622933605018]
放射線モデルは、グリオ芽腫(GBM)の結果予測のための臨床データを上回ることが示されています。 GBM患者の生存率(OS),IDH変異,O-6-メチルグアニン-DNA-メチルトランスフェラーゼ(MGMT)プロモーターメチル化,EGFR(EGFR)VII増幅,Ki-67発現の9種類の機械学習分類器を比較した。 xgb は os (74.5%), ab for idh 変異 (88%), mgmt メチル化 (71,7%), ki-67 発現 (86,6%), egfr増幅 (81。
論文参考訳（メタデータ） (2021-02-10T15:10:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。