論文の概要: Is ChatGPT-5 Ready for Mammogram VQA?
- arxiv url: http://arxiv.org/abs/2508.11628v1
- Date: Fri, 15 Aug 2025 17:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.17
- Title: Is ChatGPT-5 Ready for Mammogram VQA?
- Title(参考訳): ChatGPT-5はマンモグラムVQAの準備ができているか?
- Authors: Qiang Li, Shansong Wang, Mingzhe Hu, Mojtaba Safari, Zachary Eidex, Xiaofeng Yang,
- Abstract要約: GPT-5は一貫して最高のパフォーマンスモデルであったが、人間の専門家とドメイン固有の細調整モデルの両方に遅れを取っていた。
GPT-5は、タスクのスクリーニングに有望な能力を示すが、ハイテイクな臨床画像アプリケーションでは、その性能は依然として不十分である。
- 参考スコア(独自算出の注目度): 4.156123728258067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mammogram visual question answering (VQA) integrates image interpretation with clinical reasoning and has potential to support breast cancer screening. We systematically evaluated the GPT-5 family and GPT-4o model on four public mammography datasets (EMBED, InBreast, CMMD, CBIS-DDSM) for BI-RADS assessment, abnormality detection, and malignancy classification tasks. GPT-5 consistently was the best performing model but lagged behind both human experts and domain-specific fine-tuned models. On EMBED, GPT-5 achieved the highest scores among GPT variants in density (56.8%), distortion (52.5%), mass (64.5%), calcification (63.5%), and malignancy (52.8%) classification. On InBreast, it attained 36.9% BI-RADS accuracy, 45.9% abnormality detection, and 35.0% malignancy classification. On CMMD, GPT-5 reached 32.3% abnormality detection and 55.0% malignancy accuracy. On CBIS-DDSM, it achieved 69.3% BI-RADS accuracy, 66.0% abnormality detection, and 58.2% malignancy accuracy. Compared with human expert estimations, GPT-5 exhibited lower sensitivity (63.5%) and specificity (52.3%). While GPT-5 exhibits promising capabilities for screening tasks, its performance remains insufficient for high-stakes clinical imaging applications without targeted domain adaptation and optimization. However, the tremendous improvements in performance from GPT-4o to GPT-5 show a promising trend in the potential for general large language models (LLMs) to assist with mammography VQA tasks.
- Abstract(参考訳): マンモグラム視覚質問応答(VQA)は、画像解釈と臨床推論を統合し、乳癌検診を支援する可能性がある。
BI-RADS評価,異常検出,悪性度分類の4つの公共マンモグラフィーデータセット(EMBED, InBreast, CMMD, CBIS-DDSM)を用いて,GPT-5群およびGPT-4oモデルを系統的に評価した。
GPT-5は一貫して最高のパフォーマンスモデルであったが、人間の専門家とドメイン固有の細調整モデルの両方に遅れを取っていた。
EMBEDでは、GPT-5は密度56.8%、歪み52.5%、質量64.5%、石灰化63.5%、悪性52.8%で最高スコアを記録した。
InBreastでは、BI-RADSの精度が36.9%、異常検出が45.9%、悪性度が35.0%に達した。
CMMDでは、GPT-5は32.3%の異常検出と55.0%の悪性度精度に達した。
CBIS-DDSMでは、BI-RADS精度69.3%、異常検出66.0%、悪性度精度58.2%を達成した。
人間の専門家による推定と比較すると、GPT-5は感度が63.5%低く、特異性52.3%であった。
GPT-5は、タスクのスクリーニングに有望な能力を示すが、その性能は、標的となるドメイン適応と最適化を伴わない高精細な臨床画像アプリケーションには不十分である。
しかし, GPT-4o から GPT-5 への大幅な性能向上は, マンモグラフィ VQA タスクを支援する汎用大規模言語モデル (LLM) の可能性に有望な傾向を示している。
関連論文リスト
- Performance of GPT-5 in Brain Tumor MRI Reasoning [4.156123728258067]
大規模言語モデル(LLM)は、画像解釈と自然言語推論を統合する視覚的質問応答(VQA)アプローチを可能にした。
GPT-4o, GPT-5-nano, GPT-5-mini, GPT-5を脳腫瘍VQAで評価した。
その結果, GPT-5-miniのマクロ平均精度は44.19%, GPT-5は43.71%, GPT-4oは41.49%, GPT-5-nanoは35.85%であった。
論文 参考訳(メタデータ) (2025-08-14T17:35:31Z) - Diagnostic Accuracy of Open-Source Vision-Language Models on Diverse Medical Imaging Tasks [1.6567957832859204]
このデータセットは, 胸部X線撮影, 大腸病理検査, 内視鏡検査, 新生児黄体診, 網膜内視鏡検査を含む7,461例の22,349枚の画像を含む。
Qwen2.5 は胸部X線写真 (90.4%) と内視鏡画像 (84.2%) で最高精度を達成し、他のモデル (p.001) よりも大幅に優れていた。
Qwen2.5とGemma3は18.6%(比較可能、p=.99)で、他の試験されたモデル(p.001)よりもはるかに優れている。
論文 参考訳(メタデータ) (2025-08-01T18:28:37Z) - A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers [51.45596445363302]
GlobeReadyはクリニックフレンドリーなAIプラットフォームで、再トレーニング、微調整、技術専門知識の必要性なしに、基礎疾患の診断を可能にする。
光コヒーレンス・トモグラフィー(OCT)スキャンを用いて、カラー・ファンドス写真(CPF)を用いた11のファンドス病(93.9-98.5%)と15のファンドス病(87.2-92.7%)の精度を示した。
トレーニングなしのローカル機能拡張を活用することで、GlobeReadyプラットフォームは、センターや人口間のドメインシフトを効果的に軽減する。
論文 参考訳(メタデータ) (2025-04-22T14:17:22Z) - A Multi-Modal AI System for Screening Mammography: Integrating 2D and 3D Imaging to Improve Breast Cancer Detection in a Prospective Clinical Study [2.9992821862882546]
偽陽性のリコールは乳がん検診において依然として懸念されている。
我々は,マルチモーダルな人工知能システムを開発し,全フィールドデジタルマンモグラフィーと合成マンモグラフィーを統合した。
約50万の試験でトレーニングされた私たちのAIシステムは、内部テストセットで0.945 AUROCを達成しました。
論文 参考訳(メタデータ) (2025-04-08T03:29:40Z) - Detection of subclinical atherosclerosis by image-based deep learning on chest x-ray [86.38767955626179]
460胸部X線で冠状動脈カルシウム(CAC)スコアを予測する深層学習アルゴリズムを開発した。
AICACモデルの診断精度は, 曲線下領域(AUC)で評価された。
論文 参考訳(メタデータ) (2024-03-27T16:56:14Z) - Multi-Head Feature Pyramid Networks for Breast Mass Detection [48.24995569980701]
本稿では,MHFPN (Multi-head Feature pyramid Module) を提案する。
実験により、SOTA検出ベースラインと比較して、一般的に使用されるInbreastデータセットでは、我々の手法は6.58%(AP@50では6.58%、TPR@50では5.4%(TPR@50では5.4%)の改善が見られた。
論文 参考訳(メタデータ) (2023-02-22T03:02:52Z) - EMT-NET: Efficient multitask network for computer-aided diagnosis of
breast cancer [58.720142291102135]
乳腺腫瘍の分類と分別を同時に行うための,効率的で軽量な学習アーキテクチャを提案する。
腫瘍分類ネットワークにセグメンテーションタスクを組み込むことにより,腫瘍領域に着目したバックボーンネットワークで表現を学習する。
腫瘍分類の精度、感度、特異性はそれぞれ88.6%、94.1%、85.3%である。
論文 参考訳(メタデータ) (2022-01-13T05:24:40Z) - Comparison of Machine Learning Classifiers to Predict Patient Survival
and Genetics of GBM: Towards a Standardized Model for Clinical Implementation [44.02622933605018]
放射線モデルは、グリオ芽腫(GBM)の結果予測のための臨床データを上回ることが示されています。
GBM患者の生存率(OS),IDH変異,O-6-メチルグアニン-DNA-メチルトランスフェラーゼ(MGMT)プロモーターメチル化,EGFR(EGFR)VII増幅,Ki-67発現の9種類の機械学習分類器を比較した。
xgb は os (74.5%), ab for idh 変異 (88%), mgmt メチル化 (71,7%), ki-67 発現 (86,6%), egfr増幅 (81。
論文 参考訳(メタデータ) (2021-02-10T15:10:37Z) - Feature Fusion of Raman Chemical Imaging and Digital Histopathology
using Machine Learning for Prostate Cancer Detection [0.0]
本研究は, 染色デジタル組織学 (DP) と非定常ラマンケミカルイメージング (RCI) によるマルチモーダル画像を用いた。
この仮説は、マルチモーダル画像モデルが診断精度の点で単一のモダリティベースラインモデルより優れているかどうかを検証した。
論文 参考訳(メタデータ) (2021-01-18T22:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。