Fugu-MT 論文翻訳(概要): Diagnostic Accuracy of Open-Source Vision-Language Models on Diverse Medical Imaging Tasks

論文の概要: Diagnostic Accuracy of Open-Source Vision-Language Models on Diverse Medical Imaging Tasks

arxiv url: http://arxiv.org/abs/2508.01016v1
Date: Fri, 01 Aug 2025 18:28:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:21.667748
Title: Diagnostic Accuracy of Open-Source Vision-Language Models on Diverse Medical Imaging Tasks
Title（参考訳）: 各種医用イメージング課題におけるオープンソースビジョンランゲージモデルの診断精度
Authors: Gustav Müller-Franzes, Debora Jutz, Jakob Nikolas Kather, Christiane Kuhl, Sven Nebelung, Daniel Truhn,
Abstract要約: このデータセットは, 胸部X線撮影, 大腸病理検査, 内視鏡検査, 新生児黄体診, 網膜内視鏡検査を含む7,461例の22,349枚の画像を含む。 Qwen2.5 は胸部X線写真 (90.4%) と内視鏡画像 (84.2%) で最高精度を達成し、他のモデル (p.001) よりも大幅に優れていた。 Qwen2.5とGemma3は18.6%(比較可能、p=.99)で、他の試験されたモデル(p.001)よりもはるかに優れている。
参考スコア（独自算出の注目度）: 1.6567957832859204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This retrospective study evaluated five VLMs (Qwen2.5, Phi-4, Gemma3, Llama3.2, and Mistral3.1) using the MedFMC dataset. This dataset includes 22,349 images from 7,461 patients encompassing chest radiography (19 disease multi-label classifications), colon pathology (tumor detection), endoscopy (colorectal lesion identification), neonatal jaundice assessment (skin color-based treatment necessity), and retinal fundoscopy (5-point diabetic retinopathy grading). Diagnostic accuracy was compared in three experimental settings: visual input only, multimodal input, and chain-of-thought reasoning. Model accuracy was assessed against ground truth labels, with statistical comparisons using bootstrapped confidence intervals (p<.05). Qwen2.5 achieved the highest accuracy for chest radiographs (90.4%) and endoscopy images (84.2%), significantly outperforming the other models (p<.001). In colon pathology, Qwen2.5 (69.0%) and Phi-4 (69.6%) performed comparably (p=.41), both significantly exceeding other VLMs (p<.001). Similarly, for neonatal jaundice assessment, Qwen2.5 (58.3%) and Phi-4 (58.1%) showed comparable leading accuracies (p=.93) significantly exceeding their counterparts (p<.001). All models struggled with retinal fundoscopy; Qwen2.5 and Gemma3 achieved the highest, albeit modest, accuracies at 18.6% (comparable, p=.99), significantly better than other tested models (p<.001). Unexpectedly, multimodal input reduced accuracy for some models and modalities, and chain-of-thought reasoning prompts also failed to improve accuracy. The open-source VLMs demonstrated promising diagnostic capabilities, particularly in chest radiograph interpretation. However, performance in complex domains such as retinal fundoscopy was limited, underscoring the need for further development and domain-specific adaptation before widespread clinical application.
Abstract（参考訳）: この振り返り研究は、MedFMCデータセットを用いて、5つのVLM(Qwen2.5、Phi-4、Gemma3、Llama3.2、Mistral3.1)を評価した。このデータセットは、胸部X線撮影(19の病状分類)、大腸病理(腫瘍検出)、内視鏡(大腸病変の同定)、新生児黄斑評価(皮膚色に基づく治療の必要性)、網膜内視鏡(5点糖尿病網膜症分類)を含む7,461人の患者から22,349枚の画像を含む。診断精度は,視覚入力のみ,マルチモーダル入力,チェーンオブ思考推論の3つの実験条件で比較した。モデル精度を地上の真理ラベルと比較し, 自己ストリップされた信頼区間(p<.05)を用いて統計的に比較した。 Qwen2.5 は胸部X線写真 (90.4%) と内視鏡画像 (84.2%) で最高精度を達成し、他のモデル (p<.001) よりも大幅に優れていた。大腸病理学では、Qwen2.5 (69.0%) とPhi-4 (69.6%) が相容的 (p=.41) に実行され、どちらも他のVLM (p<.001) をはるかに上回った。同様に、新生児黄斑の評価では、Qwen2.5 (58.3%) とPhi-4 (58.1%) は同等の有病率 (p=.93) を示し(p<.001) を上回った。 Qwen2.5とGemma3は18.6%(比較可能、p=.99)で、他の試験されたモデル(p<.001)よりもはるかに良くなった。予期せぬことに、いくつかのモデルとモダリティのマルチモーダル入力は精度を低下させ、チェーン・オブ・ソート推論のプロンプトも精度を向上できなかった。オープンソースのVLMは、特に胸部X線画像の解釈において、有望な診断能力を示した。しかし, 網膜内視鏡などの複雑な領域では, さらなる発展の必要性と, 広く臨床応用される前のドメイン特異的適応の必要性が強調された。

関連論文リスト

An Attention-Guided Deep Learning Approach for Classifying 39 Skin Lesion Types [0.9467360130705921]
本研究は,39種類の皮膚病変からなる包括的および多種多様なデータセットをキュレートすることにより,分野を前進させる。 MobileNetV2、Xception、InceptionV3、EfficientNetB1、Vision Transformerの5つの最先端ディープラーニングモデルが厳格に評価されている。 CBAMと統合されたビジョントランスフォーマーモデルは、93.46%の精度、94%の精度、93%のリコール、93%のF1スコア、93.67%の特異性を達成した。
論文参考訳（メタデータ） (2025-01-10T14:25:01Z)
Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文参考訳（メタデータ） (2024-09-29T07:04:26Z)
Multi-centric AI Model for Unruptured Intracranial Aneurysm Detection and Volumetric Segmentation in 3D TOF-MRI [6.397650339311053]
我々は3DTOF-MRIで未破裂脳動脈瘤(UICA)の検出と分節を併用したオープンソースのnnU-NetベースのAIモデルを開発した。 4つの異なるトレーニングデータセットが作成され、nnU-Netフレームワークがモデル開発に使用された。一次モデルは85%の感度と0.23FP/ケースレートを示し、ADAM-challengeの勝者(61%)と、ADAMデータでトレーニングされたnnU-Net(51%)を感度で上回った。
論文参考訳（メタデータ） (2024-08-30T08:57:04Z)
Enhancing Diagnostic Reliability of Foundation Model with Uncertainty Estimation in OCT Images [41.002573031087856]
光コヒーレンストモグラフィー(OCT)における11個の網膜状態を検出するために,不確実性推定(FMUE)を用いた基礎モデルを開発した。 FMUEは2つの最先端アルゴリズムであるRETFoundとUIOSよりも96.76%高いF1スコアを獲得し、しきい値戦略を98.44%に改善した。我々のモデルは、F1スコアが高い2人の眼科医(95.17%対61.93% &71.72%)より優れている。
論文参考訳（メタデータ） (2024-06-18T03:04:52Z)
Multivariate Analysis on Performance Gaps of Artificial Intelligence Models in Screening Mammography [4.123006816939975]
異常分類のための深層学習モデルは,マンモグラフィーのスクリーニングにおいて良好に機能する。モデル不全のリスクの増加に伴う人口統計学的、画像的、臨床的特徴はいまだに不明である。年齢,人種,病理所見,組織密度,画像特徴によって定義されるサブグループによるモデル性能の評価を行った。
論文参考訳（メタデータ） (2023-05-08T02:28:45Z)
Generative models improve fairness of medical classifiers under distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文参考訳（メタデータ） (2023-04-18T18:15:38Z)
Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文参考訳（メタデータ） (2022-12-14T06:04:18Z)
Corneal endothelium assessment in specular microscopy images with Fuchs' dystrophy via deep regression of signed distance maps [48.498376125522114]
本稿では,UNetをベースとしたセグメンテーション手法を提案する。これは、フックスのジストロフィーの全度にわたって、信頼できるCE形態計測と腸骨同定を実現する。
論文参考訳（メタデータ） (2022-10-13T15:34:20Z)
Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文参考訳（メタデータ） (2022-04-22T17:27:00Z)
The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。 AUC, 感度, 特異性, 精度, F1。
論文参考訳（メタデータ） (2021-09-18T02:28:01Z)
Pointwise visual field estimation from optical coherence tomography in glaucoma: a structure-function analysis using deep learning [12.70143462176992]
SAP(Standard Automated Perimetry)は、緑内障治療における視野(VF)の喪失を監視するための金の標準である。我々は,光学コヒーレンス・トモグラフィー(OCT)スキャンによる点方向および全体的VF損失を推定する深層学習(DL)回帰モデルを開発し,検証した。
論文参考訳（メタデータ） (2021-06-07T16:58:38Z)
Artificial Intelligence applied to chest X-Ray images for the automatic detection of COVID-19. A thoughtful evaluation approach [0.0]
論文では、79,500枚以上のX線画像のデータセットで畳み込みニューラルネットワークをトレーニングするプロセスについて述べる。採用手法では、91.5%の分類精度が得られ、最悪のものの最も説明可能な実験に対する平均リコールは87.4%である。
論文参考訳（メタデータ） (2020-11-29T02:48:39Z)
Deep Learning Based Detection and Localization of Intracranial Aneurysms in Computed Tomography Angiography [5.973882600944421]
初期動脈瘤検出のための3D領域提案ネットワークと偽陽性縮小のための3D DenseNetという2段階モデルが実装された。本モデルでは,0.25FPPV,最高F-1スコアと比較すると,統計的に高い精度,感度,特異性を示した。
論文参考訳（メタデータ） (2020-05-22T10:49:23Z)
A multicenter study on radiomic features from T$_2$-weighted images of a customized MR pelvic phantom setting the basis for robust radiomic models in clinics [47.187609203210705]
骨盤ファントムの2Dおよび3D T$$-weightedイメージを3つのスキャナーで取得した。放射線学的特徴の再現性と再配置を評価した。
論文参考訳（メタデータ） (2020-05-14T09:24:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。