論文の概要: A ChatGPT Aided Explainable Framework for Zero-Shot Medical Image
Diagnosis
- arxiv url: http://arxiv.org/abs/2307.01981v1
- Date: Wed, 5 Jul 2023 01:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:21:34.140032
- Title: A ChatGPT Aided Explainable Framework for Zero-Shot Medical Image
Diagnosis
- Title(参考訳): ゼロショット画像診断のためのchatgpt支援説明フレームワーク
- Authors: Jiaxiang Liu, Tianxiang Hu, Yan Zhang, Xiaotang Gai, Yang Feng, Zuozhu
Liu
- Abstract要約: 診断にChatGPTを付加した新しいCLIPベースのゼロショット画像分類フレームワークを提案する。
鍵となるアイデアは、大きな言語モデル(LLM)をカテゴリ名でクエリして、追加のキューと知識を自動的に生成することだ。
1つのプライベートデータセットと4つのパブリックデータセットの広範な結果と詳細な分析は、トレーニング不要なゼロショット診断パイプラインの有効性と説明可能性を示している。
- 参考スコア(独自算出の注目度): 15.13309228766603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot medical image classification is a critical process in real-world
scenarios where we have limited access to all possible diseases or large-scale
annotated data. It involves computing similarity scores between a query medical
image and possible disease categories to determine the diagnostic result.
Recent advances in pretrained vision-language models (VLMs) such as CLIP have
shown great performance for zero-shot natural image recognition and exhibit
benefits in medical applications. However, an explainable zero-shot medical
image recognition framework with promising performance is yet under
development. In this paper, we propose a novel CLIP-based zero-shot medical
image classification framework supplemented with ChatGPT for explainable
diagnosis, mimicking the diagnostic process performed by human experts. The key
idea is to query large language models (LLMs) with category names to
automatically generate additional cues and knowledge, such as disease symptoms
or descriptions other than a single category name, to help provide more
accurate and explainable diagnosis in CLIP. We further design specific prompts
to enhance the quality of generated texts by ChatGPT that describe visual
medical features. Extensive results on one private dataset and four public
datasets along with detailed analysis demonstrate the effectiveness and
explainability of our training-free zero-shot diagnosis pipeline, corroborating
the great potential of VLMs and LLMs for medical applications.
- Abstract(参考訳): ゼロショット医療画像分類は、あらゆる病気や大規模な注釈付きデータへのアクセスが制限される現実のシナリオにおいて重要なプロセスである。
診断結果を決定するために、クエリ医療画像と可能性のある疾患カテゴリの類似点を計算する。
CLIPのような事前訓練された視覚言語モデル(VLM)の最近の進歩は、ゼロショットの自然画像認識に優れた性能を示し、医学的応用に有益である。
しかし、将来性のあるゼロショット医療画像認識フレームワークはまだ開発中である。
本稿では,ChatGPTを付加した新しいCLIPベースのゼロショット医用画像分類フレームワークを提案する。
主要なアイデアは、大きな言語モデル(LLM)をカテゴリ名でクエリして、病気の症状や単一のカテゴリ名以外の記述などの追加の手がかりや知識を自動的に生成し、より正確で説明可能なCLIPの診断を支援することである。
さらに,視覚医学的特徴を記述したchatgptを用いて,生成されたテキストの品質向上のための具体的プロンプトをデザインする。
1つのプライベートデータセットと4つのパブリックデータセットの広範な結果と詳細な分析は、トレーニング不要なゼロショット診断パイプラインの有効性と説明可能性を示し、医療応用におけるVLMとLLMの大きな可能性を裏付けるものである。
関連論文リスト
- Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
本研究は,人工知能(AI)モデルを用いた医用合成データ生成の臨床評価に焦点を当てた。
本論文は,a) 医用専門家による合成画像の体系的評価のためのプロトコルを提示し,b) 高分解能WCE画像合成のための新しい変分オートエンコーダモデルであるTIDE-IIを評価する。
その結果、TIDE-IIは臨床的に関連性のあるWCE画像を生成し、データの不足に対処し、診断ツールの強化に役立つことがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - A Multimodal Approach For Endoscopic VCE Image Classification Using BiomedCLIP-PubMedBERT [0.62914438169038]
本稿では,マルチモーダルモデルであるBiomedCLIP PubMedBERTの微細調整によるビデオカプセル内視鏡フレームの異常の分類について述べる。
本手法では, 血管拡張症, 出血, エロージョン, エリテマ, 異物, リンパ管拡張症, ポリープ, 潰瘍, ワーム, 正常の10種類の画像に分類する。
分類、精度、リコール、F1スコアなどのパフォーマンス指標は、内視鏡フレームの異常を正確に識別する強力な能力を示している。
論文 参考訳(メタデータ) (2024-10-25T19:42:57Z) - Visual Prompt Engineering for Medical Vision Language Models in Radiology [0.1636269503300992]
ビジョン言語モデル(VLP)は、ゼロショットパフォーマンスの分類を改善するために学習を活用することで、有望なソリューションを提供する。
本稿では,視覚的プロンプト工学の可能性を探究し,重要な領域への潜在的関心を高める。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - A Data-Driven Guided Decoding Mechanism for Diagnostic Captioning [11.817595076396925]
診断用キャプション(DC)は、患者の1つ以上の医療画像から診断用テキストを自動的に生成する。
本稿では,診断テキスト生成プロセスのビームサーチに医療情報を組み込んだデータ駆動型ガイドデコーディング手法を提案する。
提案手法は,CNNエンコーダを用いた汎用画像-テキストシステムから,事前学習された大規模言語モデルまで,4つのDCシステムを用いて2つの医療データセット上で評価する。
論文 参考訳(メタデータ) (2024-06-20T10:08:17Z) - Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework [43.453943987647015]
医学的な視覚言語事前訓練は研究の最前線として現れ、ゼロショットの病理診断を可能にしている。
バイオメディカルテキストの複雑なセマンティクスのため、現在の方法では、医学的画像と、非構造化レポートの重要な病理学的所見の整合に苦慮している。
これは、大きな言語モデルと医療専門家に相談することで達成される。
我々の研究は、近年の手法の精度を最大8.56%まで改善し、17.26%を目に見えるカテゴリーで改善した。
論文 参考訳(メタデータ) (2024-03-12T13:18:22Z) - Unlocking the Potential of Medical Imaging with ChatGPT's Intelligent
Diagnostics [2.8484009470171943]
本論は、医療提供者や患者が健康状態の診断、治療、管理に関する意思決定を行うのを支援するための意思決定支援システムを設計することを目的とする。
提案アーキテクチャは,1)データ収集とラベル付け,2)モデルトレーニング,3)診断レポート生成の3段階を含む。
提案システムには,意思決定の強化,コスト削減,医療提供者の能力向上が期待できる。
論文 参考訳(メタデータ) (2023-05-12T12:52:14Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - BI-RADS-Net: An Explainable Multitask Learning Approach for Cancer
Diagnosis in Breast Ultrasound Images [69.41441138140895]
本稿では,乳房超音波画像における癌検出のための新しい深層学習手法であるBI-RADS-Netを紹介する。
提案手法は, 臨床診断に関連する特徴表現を学習することにより, 乳腺腫瘍の説明と分類を行うタスクを取り入れたものである。
臨床医が医療現場で診断・報告するために使用する形態学的特徴の観点から予測(良性または悪性)の説明が提供される。
論文 参考訳(メタデータ) (2021-10-05T19:14:46Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。