論文の概要: Evaluating ChatGPT's Performance in Classifying Pneumonia from Chest X-Ray Images
- arxiv url: http://arxiv.org/abs/2510.21839v1
- Date: Wed, 22 Oct 2025 13:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.914854
- Title: Evaluating ChatGPT's Performance in Classifying Pneumonia from Chest X-Ray Images
- Title(参考訳): 胸部X線画像からの肺炎分類におけるChatGPTの性能評価
- Authors: Pragna Prahallad, Pranathi Prahallad,
- Abstract要約: 我々はOpenAIのGPt-4oモデルを用いて胸部X線画像をゼロショット環境でNORMALまたはPNEUMONIAに分類する能力を評価する。
その結果, 簡潔で特徴重視のプロンプトは, 74%と高い分類精度を達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we evaluate the ability of OpenAI's gpt-4o model to classify chest X-ray images as either NORMAL or PNEUMONIA in a zero-shot setting, without any prior fine-tuning. A balanced test set of 400 images (200 from each class) was used to assess performance across four distinct prompt designs, ranging from minimal instructions to detailed, reasoning-based prompts. The results indicate that concise, feature-focused prompts achieved the highest classification accuracy of 74\%, whereas reasoning-oriented prompts resulted in lower performance. These findings highlight that while ChatGPT exhibits emerging potential for medical image interpretation, its diagnostic reliability remains limited. Continued advances in visual reasoning and domain-specific adaptation are required before such models can be safely applied in clinical practice.
- Abstract(参考訳): 本研究では,OpenAI の gpt-4o モデルによる胸部X線画像のNORMAL または PNEUMONIA の0ショット設定における分類能力を評価する。
最小限の命令から詳細な推論ベースのプロンプトまで、4つの異なるプロンプト設計におけるパフォーマンスを評価するために、400イメージ(各クラスから200イメージ)のバランスのとれたテストセットが使用された。
その結果、簡潔で特徴重視のプロンプトが74\%の最高分類精度を達成したのに対し、推論指向のプロンプトは低い性能を示した。
以上の結果から,ChatGPTは医用画像解釈の新たな可能性を示すが,診断信頼性は限定的であることが示唆された。
このようなモデルが臨床に安全に適用されるためには、視覚的推論やドメイン固有の適応の継続的な進歩が必要である。
関連論文リスト
- Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment [42.97456036889799]
古典的な放射能の特徴は、画像の外観と強度パターンを定量化するように設計されている。
近年の適応放射能の研究では、DLを用いて放射能プール上の特徴量を予測する。
本稿では,患者ごとにひとつのコンパクトな特徴セットを予測できる,患者固有の特徴セット選択フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-02T20:12:41Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - The Effect of Negation on CLIP in Medical Imaging: Limitations of Contrastive Language-Image Pretraining [2.797002704887474]
我々は,Stanford AIMI CheXagentモデルの胸部X線像を,否定を伴わないプロンプトを用いて正確に検索する能力について評価した。
以上の結果から,CLIPモデルにおける否定処理の処理精度は,肯定的評価の精度をわずかに低下させることが明らかとなった。
論文 参考訳(メタデータ) (2025-12-18T23:19:19Z) - DeepGI: Explainable Deep Learning for Gastrointestinal Image Classification [0.0]
この研究は、可変照明、ゆらぎのあるカメラアングル、頻繁な画像アーティファクトなど、一般的な内視鏡的課題に直面している。
最高性能のVGG16とMobileNetV2はそれぞれ96.5%の精度を達成した。
このアプローチには、Grad-CAM視覚化による説明可能なAIが含まれており、モデル予測に最も影響を及ぼす画像領域の識別を可能にする。
論文 参考訳(メタデータ) (2025-11-26T22:35:57Z) - EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文 参考訳(メタデータ) (2025-07-02T01:35:59Z) - Chest Disease Detection In X-Ray Images Using Deep Learning Classification Method [0.0]
胸部X線画像の分類のために,複数の分類モデルにまたがる性能について検討した。
ラベル付き医療用X線画像に基づいて,これらの事前学習アーキテクチャを微調整した。
最初の結果は、重要な分類基準で高い精度と高いパフォーマンスを約束する。
論文 参考訳(メタデータ) (2025-05-28T17:24:33Z) - Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。
本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文 参考訳(メタデータ) (2025-05-12T01:57:25Z) - Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。
我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文 参考訳(メタデータ) (2025-01-31T12:23:50Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。