論文の概要: Vision Language Models versus Machine Learning Models Performance on Polyp Detection and Classification in Colonoscopy Images
- arxiv url: http://arxiv.org/abs/2503.21840v1
- Date: Thu, 27 Mar 2025 09:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:31.916876
- Title: Vision Language Models versus Machine Learning Models Performance on Polyp Detection and Classification in Colonoscopy Images
- Title(参考訳): 大腸内視鏡画像のポリプ検出と分類における視覚言語モデルと機械学習モデルの比較
- Authors: Mohammad Amin Khalafi, Seyed Amir Ahmad Safavi-Naini, Ameneh Salehi, Nariman Naderi, Dorsa Alijanzadeh, Pardis Ketabi Moghadam, Kaveh Kavosi, Negar Golestani, Shabnam Shahrokh, Soltanali Fallah, Jamil S Samaan, Nicholas P. Tatonetti, Nicholas Hoerter, Girish Nadkarni, Hamid Asadzadeh Aghdaei, Ali Soroush,
- Abstract要約: 本研究は、確立された畳み込みニューラルネットワーク(CNN)に対する視覚言語モデル(VLM)の総合的な性能評価を提供する。
428例の大腸内視鏡像2,258例について検討した。
- 参考スコア(独自算出の注目度): 0.06782770175649853
- License:
- Abstract: Introduction: This study provides a comprehensive performance assessment of vision-language models (VLMs) against established convolutional neural networks (CNNs) and classic machine learning models (CMLs) for computer-aided detection (CADe) and computer-aided diagnosis (CADx) of colonoscopy polyp images. Method: We analyzed 2,258 colonoscopy images with corresponding pathology reports from 428 patients. We preprocessed all images using standardized techniques (resizing, normalization, and augmentation) and implemented a rigorous comparative framework evaluating 11 distinct models: ResNet50, 4 CMLs (random forest, support vector machine, logistic regression, decision tree), two specialized contrastive vision language encoders (CLIP, BiomedCLIP), and three general-purpose VLMs ( GPT-4 Gemini-1.5-Pro, Claude-3-Opus). Our performance assessment focused on two clinical tasks: polyp detection (CADe) and classification (CADx). Result: In polyp detection, ResNet50 achieved the best performance (F1: 91.35%, AUROC: 0.98), followed by BiomedCLIP (F1: 88.68%, AUROC: [AS1] ). GPT-4 demonstrated comparable effectiveness to traditional machine learning approaches (F1: 81.02%, AUROC: [AS2] ), outperforming other general-purpose VLMs. For polyp classification, performance rankings remained consistent but with lower overall metrics. ResNet50 maintained the highest efficacy (weighted F1: 74.94%), while GPT-4 demonstrated moderate capability (weighted F1: 41.18%), significantly exceeding other VLMs (Claude-3-Opus weighted F1: 25.54%, Gemini 1.5 Pro weighted F1: 6.17%). Conclusion: CNNs remain superior for both CADx and CADe tasks. However, VLMs like BioMedCLIP and GPT-4 may be useful for polyp detection tasks where training CNNs is not feasible.
- Abstract(参考訳): 紹介:本研究は,大腸内視鏡ポリプ画像のコンピュータ支援検出(CADe)とコンピュータ支援診断(CADx)のための,確立された畳み込みニューラルネットワーク(CNN)と古典的機械学習モデル(CML)に対する視覚言語モデル(VLM)の総合的な性能評価を提供する。
方法: 2,258例の大腸内視鏡像と428例の病理所見について検討した。
ResNet50,4つのCML(ランダムフォレスト,サポートベクターマシン,ロジスティック回帰,決定ツリー),2つの特殊コントラスト視覚言語エンコーダ(CLIP,BiomedCLIP),3つの汎用VLM(GPT-4 Gemini-1.5-Pro,Claude-3-Opus)という,11種類の異なるモデルを評価する厳密な比較フレームワークを実装した。
評価はポリープ検出(CADe)と分類(CADx)の2つの臨床課題に焦点を当てた。
結果:ポリプ検出において、ResNet50は最高のパフォーマンス(F1:91.35%、AUROC:0.98)、続いてBiomedCLIP(F1:88.68%、AUROC: [AS1])を達成した。
GPT-4は従来の機械学習手法(F1: 81.02%、AUROC: [AS2])に匹敵する性能を示し、他の汎用VLMよりも優れていた。
ポリープ分類では、パフォーマンスランキングは一貫していたが、全体的な指標は低かった。
ResNet50は最高有効性(重みF1:74.94%)を維持し、GPT-4は適度な能力(重みF1:41.18%)を示し、他のVLMよりも大幅に上回った(Claude-3-Opus重みF1:25.54%、Gemini 1.5 Pro重みF1:6.17%)。
結論: CNNはCADxとCADeの両方のタスクに優れています。
しかし、BioMedCLIPやGPT-4のようなVLMは、CNNのトレーニングが不可能なポリプ検出タスクに有用かもしれない。
関連論文リスト
- Enhancing Transfer Learning for Medical Image Classification with SMOTE: A Comparative Study [0.0]
本稿では,医療画像における多ラベル画像分類へのトランスファーラーニング(TL)の適用について検討し,拡張する。
以上の結果から, TLモデルは脳腫瘍の分類に優れ, ほぼ最適測定値が得られた。
我々は,SMOTE(Synthetic Minority Oversampling Computing Technique)とTLと従来の機械学習(ML)手法を統合し,精度を1.97%向上し,リコール(感度)を5.43%向上し,特異度を0.72%向上させる。
論文 参考訳(メタデータ) (2024-12-28T18:15:07Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models [0.06555599394344236]
本研究では,大言語モデル (LLMs) と視覚言語モデル (VLMs) の胃腸科学における医学的推論性能を評価する。
我々は,300の胃腸科検査式多票質問紙を使用し,そのうち138は画像を含んでいた。
論文 参考訳(メタデータ) (2024-08-25T14:50:47Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Treatment classification of posterior capsular opacification (PCO) using
automated ground truths [0.0]
本稿では,PCO画像をまず分類し,必要なテキスト処理と不要なテキスト処理に分類する,深層学習(DL)に基づく手法を提案する。
モデルのトレーニングには, (i) マニュアルと (ii) 自動の2つの戦略から得られるグラウンド・真実(GT)をセットしたトレーニング画像を作成する。
論文 参考訳(メタデータ) (2022-11-11T10:36:42Z) - Transformers Improve Breast Cancer Diagnosis from Unregistered
Multi-View Mammograms [6.084894198369222]
我々はマルチビュー・ビジョン・トランスフォーマーのアーキテクチャを活用し、同一患者から複数のマンモグラフィーの長距離関係を1回の検査で捉えた。
我々の4画像(2面2面)トランスフォーマーモデルでは、ROC曲線下(AUC = 0.818)でのケース分類が可能である。
また、AUCは0.724(CCビュー)と0.769(MLOビュー)の2つの片面2面モデルより優れている。
論文 参考訳(メタデータ) (2022-06-21T03:54:21Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Pointwise visual field estimation from optical coherence tomography in
glaucoma: a structure-function analysis using deep learning [12.70143462176992]
SAP(Standard Automated Perimetry)は、緑内障治療における視野(VF)の喪失を監視するための金の標準である。
我々は,光学コヒーレンス・トモグラフィー(OCT)スキャンによる点方向および全体的VF損失を推定する深層学習(DL)回帰モデルを開発し,検証した。
論文 参考訳(メタデータ) (2021-06-07T16:58:38Z) - FLANNEL: Focal Loss Based Neural Network Ensemble for COVID-19 Detection [61.04937460198252]
正常, 細菌性肺炎, 非ウイルス性肺炎, COVID-19の4型を有する2874例のX線画像データを構築した。
FLANNEL(Focal Loss Based Neural Ensemble Network)を提案する。
FLANNELは、すべての指標において、新型コロナウイルス識別タスクのベースラインモデルを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-30T03:17:31Z) - Classification of COVID-19 in CT Scans using Multi-Source Transfer
Learning [91.3755431537592]
我々は,従来のトランスファー学習の改良にマルチソース・トランスファー・ラーニングを応用して,CTスキャンによる新型コロナウイルスの分類を提案する。
マルチソースファインチューニングアプローチでは、ImageNetで微調整されたベースラインモデルよりも優れています。
我々の最高のパフォーマンスモデルは、0.893の精度と0.897のリコールスコアを達成でき、ベースラインのリコールスコアを9.3%上回った。
論文 参考訳(メタデータ) (2020-09-22T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。