論文の概要: MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention
- arxiv url: http://arxiv.org/abs/2501.03839v1
- Date: Tue, 07 Jan 2025 14:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:46:48.432808
- Title: MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention
- Title(参考訳): MedFocusCLIP : ピクセル・ワイズ・アテンションを用いた医療データセットの撮影分類の改善
- Authors: Aadya Arora, Vinay Namboodiri,
- Abstract要約: 本稿では,CLIP(Contrastive Language- Image Pretraining)における視覚的エンコーダを支援する視覚的プロンプトキューとして,Segment Anything Model 2(SAM2)の高度なセグメンテーション機能を活用することを提案する。
これにより、視覚的に類似したバックグラウンド機能に気を散らすことなく、非常に差別的な領域に集中することができる。
提案手法は,X線,CTスキャン,MRI画像など多種多様な医療データセットを用いて評価し,提案手法の精度(71%,81%,86%,58%)を報告する。
- 参考スコア(独自算出の注目度): 1.2277343096128712
- License:
- Abstract: With the popularity of foundational models, parameter efficient fine tuning has become the defacto approach to leverage pretrained models to perform downstream tasks. Taking inspiration from recent advances in large language models, Visual Prompt Tuning, and similar techniques, learn an additional prompt to efficiently finetune a pretrained vision foundational model. However, we observe that such prompting is insufficient for fine-grained visual classification tasks such as medical image classification, where there is large inter-class variance, and small intra-class variance. Hence, in this paper we propose to leverage advanced segmentation capabilities of Segment Anything Model 2 (SAM2) as a visual prompting cue to help visual encoder in the CLIP (Contrastive Language-Image Pretraining) by guiding the attention in CLIP visual encoder to relevant regions in the image. This helps the model to focus on highly discriminative regions, without getting distracted from visually similar background features, an essential requirement in a fewshot, finegrained classification setting. We evaluate our method on diverse medical datasets including X-rays, CT scans, and MRI images, and report an accuracy of (71%, 81%, 86%, 58%) from the proposed approach on (COVID, lung-disease, brain-tumor, breast-cancer) datasets against (66%, 70%, 68%, 29%) from a pretrained CLIP model after fewshot training. The proposed approach also allows to obtain interpretable explanation for the classification performance through the localization obtained using segmentation.
- Abstract(参考訳): 基礎モデルの人気により、パラメータ効率の良い微調整が、事前訓練されたモデルを利用して下流タスクを実行するデファクトアプローチとなっている。
大規模言語モデルの最近の進歩やVisual Prompt Tuning、それに類する技術からインスピレーションを得て、事前訓練された視覚基盤モデルを効率的に微調整するための追加のプロンプトを学ぶ。
しかし、このようなプロンプトは、医用画像分類のような細粒度の視覚的分類には不十分であり、クラス間ばらつきが大きく、クラス内ばらつきも小さい。
そこで本稿では,CLIP(Contrastive Language- Image Pretraining)における視覚的エンコーダの視覚的エンコーダを画像内の関連領域に向けることにより,Segment Anything Model 2 (SAM2) の高度なセグメンテーション機能を活用することを提案する。
これにより、視覚的に類似した背景特徴に気を散らすことなく、モデルを高度に識別可能な領域にフォーカスすることが可能になる。
本手法はX線,CTスキャン,MRI画像など多種多様な医用データセットについて評価し, 術前訓練後のCLIPモデル(66%, 70%, 68%, 29%)に対して, 提案したアプローチから71%, 81%, 86%, 86%, 58%)の精度を報告した。
提案手法は,セグメンテーションを用いて得られた局所化を用いて,分類性能の解釈可能な説明を得ることを可能にする。
関連論文リスト
- Embeddings are all you need! Achieving High Performance Medical Image Classification through Training-Free Embedding Analysis [0.0]
医療画像のための人工知能(AI)と機械学習(ML)モデルの開発は通常、大規模なデータセットに対する広範なトレーニングとテストを含む。
従来の訓練手順を埋め込み型アプローチで置き換える可能性について検討した。
論文 参考訳(メタデータ) (2024-12-12T16:59:37Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIPP) は、大規模な事前訓練を通じてゼロショット分類を可能にするソリューションを提供する。
ビジュアルマーカーはAUROC2013$を0.185まで改善し、分類性能を向上させる効果を強調した。
我々はコードと前処理パイプラインを公開し、医用画像の局所分類に関する今後の研究の基準点を提供する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - Explanations of Classifiers Enhance Medical Image Segmentation via
End-to-end Pre-training [37.11542605885003]
医用画像セグメンテーションは、ディープニューラルネットワークを用いて、胸部X線写真などの医用画像の異常な構造を特定し、発見することを目的としている。
我々の研究は、よく訓練された分類器から説明を集め、セグメンテーションタスクの擬似ラベルを生成する。
次に、インテグレート・グラディエント(IG)法を用いて、分類器から得られた説明を蒸留し、強化し、大規模診断指向のローカライゼーション・ラベル(DoLL)を生成する。
これらのDLLアノテーション付き画像は、新型コロナウイルス感染症、肺、心臓、鎖骨などの下流のセグメンテーションタスクのために、モデルを微調整する前に事前訓練するために使用される。
論文 参考訳(メタデータ) (2024-01-16T16:18:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Forward-Forward Contrastive Learning [4.465144120325802]
医用画像分類のための新しい事前学習手法として,前向きコントラスト学習(FFCL)を提案する。
FFCLは、肺炎分類タスクにおける既存の事前訓練モデルよりも、ImageNet Pretrained ResNet-18よりも3.69%の精度で性能が向上している。
論文 参考訳(メタデータ) (2023-05-04T15:29:06Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - PCA: Semi-supervised Segmentation with Patch Confidence Adversarial
Training [52.895952593202054]
医用画像セグメンテーションのためのPatch Confidence Adrial Training (PCA) と呼ばれる半教師付き対向法を提案する。
PCAは各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得る。
本手法は, 医用画像のセグメンテーションにおいて, 最先端の半教師付き手法より優れており, その有効性を示している。
論文 参考訳(メタデータ) (2022-07-24T07:45:47Z) - Self-Supervised-RCNN for Medical Image Segmentation with Limited Data
Annotation [0.16490701092527607]
ラベルなしMRIスキャンによる自己教師付き事前学習に基づく新たなディープラーニング学習戦略を提案する。
我々の事前学習アプローチはまず、ラベルのない画像のランダム領域に異なる歪みをランダムに適用し、次に歪みの種類と情報の損失を予測する。
異なる事前学習シナリオと微調整シナリオにおけるセグメンテーション課題に対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2022-07-17T13:28:52Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。