論文の概要: Can Large Language Models Challenge CNNS in Medical Image Analysis?
- arxiv url: http://arxiv.org/abs/2505.23503v1
- Date: Thu, 29 May 2025 14:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.912082
- Title: Can Large Language Models Challenge CNNS in Medical Image Analysis?
- Title(参考訳): 大規模言語モデルは医療画像解析においてCNNSに挑戦できるか?
- Authors: Shibbir Ahmed, Shahnewaz Karim Sakib, Anindya Bijoy Das,
- Abstract要約: 本研究では,医療診断画像の正確な分類を目的としたマルチモーダルAIフレームワークを提案する。
提案システムは、畳み込みニューラルネットワーク(CNN)と異なる大言語モデル(LLM)の強みを比較する。
- 参考スコア(独自算出の注目度): 3.1406146587437904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a multimodal AI framework designed for precisely classifying medical diagnostic images. Utilizing publicly available datasets, the proposed system compares the strengths of convolutional neural networks (CNNs) and different large language models (LLMs). This in-depth comparative analysis highlights key differences in diagnostic performance, execution efficiency, and environmental impacts. Model evaluation was based on accuracy, F1-score, average execution time, average energy consumption, and estimated $CO_2$ emission. The findings indicate that although CNN-based models can outperform various multimodal techniques that incorporate both images and contextual information, applying additional filtering on top of LLMs can lead to substantial performance gains. These findings highlight the transformative potential of multimodal AI systems to enhance the reliability, efficiency, and scalability of medical diagnostics in clinical settings.
- Abstract(参考訳): 本研究では,医療診断画像の正確な分類を目的としたマルチモーダルAIフレームワークを提案する。
提案システムは,公開データセットを用いて,畳み込みニューラルネットワーク(CNN)と異なる大規模言語モデル(LLM)の強みを比較する。
この詳細な比較分析は、診断性能、実行効率、環境影響の主な違いを浮き彫りにする。
モデル評価は, 精度, F1スコア, 平均実行時間, エネルギー消費量, 推定CO_2$エミッションに基づいて行った。
その結果、CNNベースのモデルは、画像情報と文脈情報の両方を組み込んだ様々なマルチモーダル手法より優れているが、LLMの上に追加のフィルタリングを適用することで、大幅な性能向上につながることが示唆された。
これらの知見は、臨床現場における医療診断の信頼性、効率、スケーラビリティを高めるために、マルチモーダルAIシステムの変革の可能性を強調している。
関連論文リスト
- Prompt to Polyp: Medical Text-Conditioned Image Synthesis with Diffusion Models [5.12801085802078]
テキスト記述から現実的な医療画像を生成することは、医療AIにおけるデータ不足問題に対処する大きな可能性を持っている。
本稿では,医学領域におけるテキスト・画像合成の総合的研究を行い,二つのアプローチを比較した。
臨床テキストエンコーダ,変分オートエンコーダ,クロスアテンション機構を統合したMSDMという新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-05-08T18:07:16Z) - GS-TransUNet: Integrated 2D Gaussian Splatting and Transformer UNet for Accurate Skin Lesion Analysis [44.99833362998488]
本稿では,2次元ガウススプラッティングとTransformer UNetアーキテクチャを組み合わせた皮膚癌自動診断手法を提案する。
セグメンテーションと分類の精度は著しく向上した。
この統合は、新しいベンチマークをこの分野に設定し、マルチタスク医療画像解析手法のさらなる研究の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-23T23:28:47Z) - CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。
私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。
幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文 参考訳(メタデータ) (2024-07-29T05:00:48Z) - Graph-Ensemble Learning Model for Multi-label Skin Lesion Classification
using Dermoscopy and Clinical Images [7.159532626507458]
本研究では,グラフ畳み込みネットワーク(GCN)を導入し,相関行列として各カテゴリ間の先行的共起を多ラベル分類のためのディープラーニングモデルに活用する。
本稿では,GCNからの予測を融合モデルからの予測の補完情報とみなすグラフ・アンサンブル学習モデルを提案する。
論文 参考訳(メタデータ) (2023-07-04T13:19:57Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。