論文の概要: Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight
- arxiv url: http://arxiv.org/abs/2508.21777v1
- Date: Fri, 29 Aug 2025 16:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.122901
- Title: Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight
- Title(参考訳): 放射線オンコロジーにおけるGPT-5のベンチマーク
- Authors: Ugur Dinc, Jibak Sarkar, Philipp Schubert, Sabine Semrau, Thomas Weissmann, Andre Karius, Johann Brand, Bernd-Niklas Axer, Ahmed Gomaa, Pluvio Stephan, Ishita Sheth, Sogand Beirami, Annette Schwarz, Udo Gaipl, Benjamin Frey, Christoph Bert, Stefanie Corradini, Rainer Fietkau, Florian Putz,
- Abstract要約: GPT-5は大きな言語モデルであり、オンコロジーの使用に特化して販売されている。
TXITベンチマークでは、GPT-5の平均精度は92.8%で、GPT-4(78.8%)とGPT-3.5(62.1%)を上回った。
ビグネット評価では、GPT-5の治療勧告は、正当性(平均3.24/4、95%CI:3.11-3.38)と包括性(3.59/4、95%CI:3.49-3.69)を高く評価した。
幻覚は稀であったが,GPT-5による推奨が臨床導入に先立って厳密な専門家の監視を必要としていることを示す実体的誤りの存在
- 参考スコア(独自算出の注目度): 1.0471566053937098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction: Large language models (LLM) have shown great potential in clinical decision support. GPT-5 is a novel LLM system that has been specifically marketed towards oncology use. Methods: Performance was assessed using two complementary benchmarks: (i) the ACR Radiation Oncology In-Training Examination (TXIT, 2021), comprising 300 multiple-choice items, and (ii) a curated set of 60 authentic radiation oncologic vignettes representing diverse disease sites and treatment indications. For the vignette evaluation, GPT-5 was instructed to generate concise therapeutic plans. Four board-certified radiation oncologists rated correctness, comprehensiveness, and hallucinations. Inter-rater reliability was quantified using Fleiss' \k{appa}. Results: On the TXIT benchmark, GPT-5 achieved a mean accuracy of 92.8%, outperforming GPT-4 (78.8%) and GPT-3.5 (62.1%). Domain-specific gains were most pronounced in Dose and Diagnosis. In the vignette evaluation, GPT-5's treatment recommendations were rated highly for correctness (mean 3.24/4, 95% CI: 3.11-3.38) and comprehensiveness (3.59/4, 95% CI: 3.49-3.69). Hallucinations were rare with no case reaching majority consensus for their presence. Inter-rater agreement was low (Fleiss' \k{appa} 0.083 for correctness), reflecting inherent variability in clinical judgment. Errors clustered in complex scenarios requiring precise trial knowledge or detailed clinical adaptation. Discussion: GPT-5 clearly outperformed prior model variants on the radiation oncology multiple-choice benchmark. Although GPT-5 exhibited favorable performance in generating real-world radiation oncology treatment recommendations, correctness ratings indicate room for further improvement. While hallucinations were infrequent, the presence of substantive errors underscores that GPT-5-generated recommendations require rigorous expert oversight before clinical implementation.
- Abstract(参考訳): 導入: 大規模言語モデル (LLM) は臨床決定支援に大きな可能性を示している。
GPT-5は、腫瘍学に特化して販売されている新しいLCMシステムである。
方法:2つの相補的なベンチマークを用いて性能を評価した。
(i)ACR放射線腫瘍検査(TXIT,2021)300件の多品目及び
(II)各種疾患部位および治療適応を示す60個の真正放射線陰影の硬化セット。
ビグネット評価では, GPT-5は簡潔な治療計画を作成するように指示された。
4人の放射線腫瘍学者が正当性、包括性、幻覚を評価した。
Fleiss' \k{appa} を用いた層間信頼性の定量化を行った。
結果: TXITベンチマークでは、GPT-5の平均精度は92.8%で、GPT-4(78.8%)とGPT-3.5(62.1%)を上回った。
ドメイン固有の利得は、Doseおよび診断において最も顕著であった。
ビグネット評価では、GPT-5の治療勧告は正当性(平均3.24/4、95%CI:3.11-3.38)と包括性(3.59/4、95%CI:3.49-3.69)で高く評価された。
幻覚はまれであり、その存在について多数意見の一致は得られなかった。
Fleiss' \k{appa} 0.083は, 臨床的判断に固有の変動を反映し, レイター間合意は低かった。
エラーは、正確な臨床試験知識や詳細な臨床適応を必要とする複雑なシナリオにまとめられた。
議論: GPT-5 は放射線オンコロジー多重選択ベンチマークにおいて、前モデルよりも明らかに優れていた。
GPT-5は、実環境放射線腫瘍治療勧告の作成に好適な性能を示したが、正当性評価はさらなる改善の余地を示している。
幻覚は滅多になかったが、実体的誤りの存在は、GPT-5による推奨が臨床実装の前に厳密な専門家の監督を必要とすることを裏付けている。
関連論文リスト
- Boosting Pathology Foundation Models via Few-shot Prompt-tuning for Rare Cancer Subtyping [80.92960114162746]
視覚言語病理基盤モデルの可能性を生かした新しいフレームワークPathPTを提案する。
PathPTは、WSIレベルの監視を、VLモデルのゼロショット機能を活用することで、きめ細かいタイルレベルのガイダンスに変換する。
以上の結果から,PathPTは一貫して優れた性能を示し,サブタイピング精度と癌領域の接地能力を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-08-21T18:04:41Z) - Is ChatGPT-5 Ready for Mammogram VQA? [4.156123728258067]
GPT-5は一貫して最高のパフォーマンスモデルであったが、人間の専門家とドメイン固有の細調整モデルの両方に遅れを取っていた。
GPT-5は、タスクのスクリーニングに有望な能力を示すが、ハイテイクな臨床画像アプリケーションでは、その性能は依然として不十分である。
論文 参考訳(メタデータ) (2025-08-15T17:56:24Z) - Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology [4.156123728258067]
GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。
全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。
GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2025-08-15T16:14:51Z) - Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Exploring the Boundaries of GPT-4 in Radiology [46.30976153809968]
GPT-4は、複雑なコンテキストにおいて、時折エラーしか発生しない十分なレベルの放射線学知識を持っている。
結果の要約では、GPT-4の出力は、既存の手書きのインプレッションと総合的に比較できる。
論文 参考訳(メタデータ) (2023-10-23T05:13:03Z) - Beyond the Hype: Assessing the Performance, Trustworthiness, and
Clinical Suitability of GPT3.5 [0.37501702548174976]
医用画像プロトコル割り当てのためのGPT3.5モデルの性能と信頼性を評価するためのアプローチを提案する。
細調整されたBERTモデルと放射線科医を比較した。
以上の結果から,GPT3.5はBERTと放射線科医に遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-06-28T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。