Fugu-MT 論文翻訳(概要): Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

論文の概要: Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

arxiv url: http://arxiv.org/abs/2603.04763v1
Date: Thu, 05 Mar 2026 03:24:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.051275
Title: Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary
Title（参考訳）: マルチモーダル・クリニカル・レゾナーとしてのGPT-5の評価 : ランドスケープ解説
Authors: Alexandru Florea, Shansong Wang, Mingzhe Hu, Qiang Li, Zach Eidex, Luke del Balzo, Mojtaba Safari, Xiaofeng Yang,
Abstract要約: この注釈書は、GPT-5ファミリー(GPT-5, GPT-5 Mini, GPT-5 Nano)の最初の制御された横断的な評価である。 GPT-5は、MedXpertQAの25ポイントを超える絶対的な改善により、専門家レベルのテキスト推論において著しく向上した。マルチモーダル合成を課題とする場合、GPT-5はこの強化された推論能力を有効活用し、具体的な画像証拠に不確実な臨床物語を根拠とした。
参考スコア（独自算出の注目度）: 36.736436091313585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The transition from task-specific artificial intelligence toward general-purpose foundation models raises fundamental questions about their capacity to support the integrated reasoning required in clinical medicine, where diagnosis demands synthesis of ambiguous patient narratives, laboratory data, and multimodal imaging. This landscape commentary provides the first controlled, cross-sectional evaluation of the GPT-5 family (GPT-5, GPT-5 Mini, GPT-5 Nano) against its predecessor GPT-4o across a diverse spectrum of clinically grounded tasks, including medical education examinations, text-based reasoning benchmarks, and visual question-answering in neuroradiology, digital pathology, and mammography using a standardized zero-shot chain-of-thought protocol. GPT-5 demonstrated substantial gains in expert-level textual reasoning, with absolute improvements exceeding 25 percentage-points on MedXpertQA. When tasked with multimodal synthesis, GPT-5 effectively leveraged this enhanced reasoning capacity to ground uncertain clinical narratives in concrete imaging evidence, achieving state-of-the-art or competitive performance across most VQA benchmarks and outperforming GPT-4o by margins of 10-40% in mammography tasks requiring fine-grained lesion characterization. However, performance remained moderate in neuroradiology (44% macro-average accuracy) and lagged behind domain-specific models in mammography, where specialized systems exceed 80% accuracy compared to GPT-5's 52-64%. These findings indicate that while GPT-5 represents a meaningful advance toward integrated multimodal clinical reasoning, mirroring the clinician's cognitive process of biasing uncertain information with objective findings, generalist models are not yet substitutes for purpose-built systems in highly specialized, perception-critical tasks.
Abstract（参考訳）: タスク固有の人工知能から汎用基盤モデルへの移行は、診断が曖昧な患者の物語、実験データ、マルチモーダルイメージングの合成を要求する臨床医学で必要とされる統合的推論を支援する能力に関する根本的な疑問を提起する。 GPT-5ファミリー(GPT-5、GPT-5 Mini、GPT-5 Nano)を、医学教育試験、テキストベースの推論ベンチマーク、神経放射線学、デジタル病理学、マンモグラフィーにおける標準的なゼロショットチェーン・オブ・シントプロトコルを用いた視覚的質問応答を含む様々な臨床基礎課題に対して、GPT-4oに対して初めて制御し横断的に評価する。 GPT-5は、MedXpertQAの25ポイントを超える絶対的な改善により、専門家レベルのテキスト推論において著しく向上した。マルチモーダル合成の課題において, GPT-5は, この強化された推論能力を有効活用し, 具体的画像証拠における不確定な臨床物語の基盤化, 大部分のVQAベンチマークにおける最先端または競争性能の達成, GPT-4oの微細な病変のキャラクタリゼーションを必要とするマンモグラフィータスクにおける10～40%のマージンを達成した。しかし, 神経放射線学では, 44%のマクロ平均精度が得られ, GPT-5の52-64%に比べ, 専門系では80%以上の精度であった。これらの結果から, GPT-5は, 統合型多モーダル臨床推論への有意義な進展を示し, 臨床医が不確実な情報を客観的に偏見する認知過程を反映しているが, 汎用モデルはまだ高度に専門化され, 認識クリティカルなタスクにおいて, 目的構築システムに代わるものではないことが示唆された。

関連論文リスト

DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。これらのギャップに対処するための包括的なフレームワークを提示します。まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文参考訳（メタデータ） (2026-01-05T07:55:36Z)
A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文参考訳（メタデータ） (2025-12-23T13:26:13Z)
Benchmarking GPT-5 for biomedical natural language processing [17.663813433200122]
本研究は,GPT-5とGPT-4oを5つの中核生物医学的NLPタスクで評価するための統一ベンチマークを拡張した。 GPT-5 は一貫して GPT-4o を上回り、推論集約データセットで最大の利益を得た。
論文参考訳（メタデータ） (2025-08-28T13:06:53Z)
Capabilities of GPT-5 across critical domains: Is it the next breakthrough? [0.0]
OpenAIによるGPT-4は、推論、マルチモーダリティ、タスクの一般化の進歩をもたらした。 GPT-5は2025年8月にリリースされ、タスク固有の最適化のために設計されたシステム・オブ・モデルアーキテクチャが組み込まれている。本研究は,GPT-4とGPT-5を言語学および臨床分野からヒトラッカーを用いて比較した最初の体系的比較例である。
論文参考訳（メタデータ） (2025-08-16T12:26:11Z)
Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology [4.156123728258067]
GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。 GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
論文参考訳（メタデータ） (2025-08-15T16:14:51Z)
Performance of GPT-5 in Brain Tumor MRI Reasoning [4.156123728258067]
大規模言語モデル(LLM)は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にした。 GPT-4o, GPT-5-nano, GPT-5-mini, GPT-5を脳腫瘍VQAで評価した。その結果, GPT-5-miniのマクロ平均精度は44.19%, GPT-5は43.71%, GPT-4oは41.49%, GPT-5-nanoは35.85%であった。
論文参考訳（メタデータ） (2025-08-14T17:35:31Z)
Capabilities of GPT-5 on Multimodal Medical Reasoning [4.403894457826502]
本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。 GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文参考訳（メタデータ） (2025-08-11T17:43:45Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。 Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-28T03:16:12Z)
Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。 GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文参考訳（メタデータ） (2023-11-10T18:40:44Z)
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。 GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文参考訳（メタデータ） (2023-10-31T11:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。