論文の概要: Few-shot medical image classification with simple shape and texture text
descriptors using vision-language models
- arxiv url: http://arxiv.org/abs/2308.04005v1
- Date: Tue, 8 Aug 2023 02:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:27:58.845577
- Title: Few-shot medical image classification with simple shape and texture text
descriptors using vision-language models
- Title(参考訳): 視覚言語モデルを用いた単純な形状とテクスチャテキスト記述子を用いた医用画像分類
- Authors: Michal Byra, Muhammad Febrian Rachmadi, Henrik Skibbe
- Abstract要約: 本稿では,視覚言語モデル(VLM)と大規模言語モデルの有用性について検討する。
我々は、GPT-4モデルを用いて、医用画像中の物体の形状とテクスチャ特性をカプセル化したテキスト記述子を生成する。
- 参考スコア(独自算出の注目度): 1.1172382217477128
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we investigate the usefulness of vision-language models (VLMs)
and large language models for binary few-shot classification of medical images.
We utilize the GPT-4 model to generate text descriptors that encapsulate the
shape and texture characteristics of objects in medical images. Subsequently,
these GPT-4 generated descriptors, alongside VLMs pre-trained on natural
images, are employed to classify chest X-rays and breast ultrasound images. Our
results indicate that few-shot classification of medical images using VLMs and
GPT-4 generated descriptors is a viable approach. However, accurate
classification requires to exclude certain descriptors from the calculations of
the classification scores. Moreover, we assess the ability of VLMs to evaluate
shape features in breast mass ultrasound images. We further investigate the
degree of variability among the sets of text descriptors produced by GPT-4. Our
work provides several important insights about the application of VLMs for
medical image analysis.
- Abstract(参考訳): 本研究では,視覚言語モデル (vlms) と大言語モデル (大言語モデル) の有用性について検討した。
gpt-4モデルを用いて,医療画像中の物体の形状とテクスチャ特性をカプセル化したテキスト記述子を生成する。
次に、これらのgpt-4生成ディスクリプタと、自然画像に事前訓練されたvlmを用いて、胸部x線および胸部超音波画像の分類を行う。
以上の結果から,VLMとGPT-4生成ディスクリプタを用いた医療画像の少ない分類が可能であることが示唆された。
しかし、正確な分類は、ある記述子を分類スコアの計算から除外する必要がある。
さらに,乳房超音波画像におけるvlmの形状特徴評価能について検討した。
さらに, GPT-4 で生成したテキスト記述子の集合間の変動度について検討する。
本研究は,医用画像解析へのVLMの適用について,いくつかの重要な知見を提供する。
関連論文リスト
- A Multimodal Approach For Endoscopic VCE Image Classification Using BiomedCLIP-PubMedBERT [0.62914438169038]
本稿では,マルチモーダルモデルであるBiomedCLIP PubMedBERTの微細調整によるビデオカプセル内視鏡フレームの異常の分類について述べる。
本手法では, 血管拡張症, 出血, エロージョン, エリテマ, 異物, リンパ管拡張症, ポリープ, 潰瘍, ワーム, 正常の10種類の画像に分類する。
分類、精度、リコール、F1スコアなどのパフォーマンス指標は、内視鏡フレームの異常を正確に識別する強力な能力を示している。
論文 参考訳(メタデータ) (2024-10-25T19:42:57Z) - Exploiting LMM-based knowledge for image classification tasks [11.801596051153725]
画像のセマンティック記述の抽出にはMiniGPT-4モデルを用いる。
本稿では,MiniGPT-4の生成する意味記述に対応するテキスト埋め込みを得るために,テキストエンコーダを付加的に使用することを提案する。
3つのデータセットに対する実験的な評価は,LMMに基づく知識を活用した分類性能の向上を実証する。
論文 参考訳(メタデータ) (2024-06-05T08:56:24Z) - An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging [0.3029213689620348]
医用画像解析のためのGemini(textitgemini-1.0-pro-vision-latst)モデルとGPT-4Vモデルの可能性を探る。
Gemini AIとGPT-4Vはどちらも、まず実画像と合成画像の分類に使用され、次に入力画像の解釈と解析を行う。
本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-02T08:29:23Z) - Holistic Evaluation of GPT-4V for Biomedical Imaging [113.46226609088194]
GPT-4Vはコンピュータビジョンのための人工知能の突破口である。
GPT-4Vは,放射線学,腫瘍学,眼科,病理学など16分野にまたがって評価を行った。
以上の結果より,GPT-4Vは異常や解剖学的認識に優れていたが,診断や局所化は困難であった。
論文 参考訳(メタデータ) (2023-11-10T18:40:44Z) - A ChatGPT Aided Explainable Framework for Zero-Shot Medical Image
Diagnosis [15.13309228766603]
診断にChatGPTを付加した新しいCLIPベースのゼロショット画像分類フレームワークを提案する。
鍵となるアイデアは、大きな言語モデル(LLM)をカテゴリ名でクエリして、追加のキューと知識を自動的に生成することだ。
1つのプライベートデータセットと4つのパブリックデータセットの広範な結果と詳細な分析は、トレーニング不要なゼロショット診断パイプラインの有効性と説明可能性を示している。
論文 参考訳(メタデータ) (2023-07-05T01:45:19Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Cross-modulated Few-shot Image Generation for Colorectal Tissue
Classification [58.147396879490124]
XM-GANと名づけられた少数ショット生成法は,1塩基と1対の参照組織像を入力とし,高品質で多様な画像を生成する。
我々の知る限りでは、大腸組織像の少数ショット生成を最初に調査した人物である。
論文 参考訳(メタデータ) (2023-04-04T17:50:30Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - A Bag of Visual Words Model for Medical Image Retrieval [0.9137554315375919]
Bag of Visual Words (BoVW) は、ベクトル空間における固有画像の特徴を効果的に表現する技術である。
本稿では、コンテンツに基づく医用画像検索のためのBoVWモデルに基づくMedIRアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-18T16:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。