論文の概要: PM2: A New Prompting Multi-modal Model Paradigm for Few-shot Medical Image Classification
- arxiv url: http://arxiv.org/abs/2404.08915v2
- Date: Sat, 25 May 2024 14:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:57:17.669334
- Title: PM2: A New Prompting Multi-modal Model Paradigm for Few-shot Medical Image Classification
- Title(参考訳): PM2: 医用画像分類のための新しいマルチモーダルモデルパラダイム
- Authors: Zhenwei Wang, Qiule Sun, Bingbing Zhang, Pengfei Wang, Jianxin Zhang, Qiang Zhang,
- Abstract要約: 本稿では,PM2と呼ばれるマルチモーダル基盤モデルに基づく医用画像分類のための新しいマルチモーダルモデルパラダイムを提案する。
画像のモダリティに加えて、PM2はプロンプトとして知られる別の補足的なテキスト入力を導入し、対応する画像や概念クラスを記述している。
我々のPM2は、プロンプトスキームによらず、かなり優れており、最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 12.628447384868503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot learning has been successfully applied to medical image classification as only very few medical examples are available for training. Due to the challenging problem of limited number of annotated medical images, image representations should not be solely derived from a single image modality which is insufficient for characterizing concept classes. In this paper, we propose a new prompting multi-modal model paradigm on medical image classification based on multi-modal foundation models, called PM2. Besides image modality,PM2 introduces another supplementary text input, known as prompt, to further describe corresponding image or concept classes and facilitate few-shot learning across diverse modalities. To better explore the potential of prompt engineering, we empirically investigate five distinct prompt schemes under the new paradigm. Furthermore, linear probing in multi-modal models acts as a linear classification head taking as input only class token, which ignores completely merits of rich statistics inherent in high-level visual tokens. Thus, we alternatively perform a linear classification on feature distribution of visual tokens and class token simultaneously. To effectively mine such rich statistics, a global covariance pooling with efficient matrix power normalization is used to aggregate visual tokens. Then we study and combine two classification heads. One is shared for class token of image from vision encoder and prompt representation encoded by text encoder. The other is to classification on feature distribution of visual tokens from vision encoder. Extensive experiments on three medical datasets show that our PM2 significantly outperforms counterparts regardless of prompt schemes and achieves state-of-the-art performance.
- Abstract(参考訳): 医用画像分類の分野では, ごくわずかの医学的例しか得られていないため, 撮影学習が成功している例は少ない。
注釈付き医用画像の数が限られているため、画像表現は概念クラスを特徴づけるには不十分な単一の画像モダリティからのみ派生すべきではない。
本稿では,PM2と呼ばれるマルチモーダル基盤モデルに基づく医用画像分類のための新しいマルチモーダルモデルパラダイムを提案する。
画像モダリティの他に、PM2はプロンプトと呼ばれる別の補足的なテキスト入力を導入し、対応する画像や概念のクラスをさらに記述し、多様なモダリティをまたいだ数発の学習を容易にする。
迅速なエンジニアリングの可能性を探るため、我々は新しいパラダイムの下で5つの異なるプロンプトスキームを実験的に検討した。
さらに、マルチモーダルモデルの線形探索は、入力のみのクラストークンとして線形分類ヘッドとして機能し、ハイレベルなビジュアルトークンに固有のリッチな統計学の利点を完全に無視する。
そこで我々は,視覚トークンとクラストークンの特徴分布を同時に線形に分類する。
このようなリッチな統計を効果的に掘り下げるために、効率的な行列パワー正規化を伴う大域的共分散プールを用いて視覚トークンを集約する。
次に、2つの分類ヘッドを研究し、組み合わせる。
1つは、視覚エンコーダからの画像のクラストークンと、テキストエンコーダによってエンコーダされたプロンプト表現のために共有される。
もう1つは視覚エンコーダからの視覚トークンの特徴分布の分類である。
3つの医学データセットに対する大規模な実験により、我々のPM2は、素早いスキームに関わらず、相手よりも著しく優れ、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Image Class Translation Distance: A Novel Interpretable Feature for Image Classification [0.0]
本稿では,画像分類のための新しい画像翻訳ネットワークを提案する。
我々は、可能なクラス間で画像を翻訳し、翻訳距離を定量化するネットワークを訓練する。
これらの翻訳距離はクラスタや傾向について調べることができ、単純な分類器に直接供給することができる。
おもちゃの2クラスシナリオ、リンゴ対オレンジのアプローチを実証し、それを2つの医療画像タスクに適用する。
論文 参考訳(メタデータ) (2024-08-16T18:48:28Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Inherently Interpretable Multi-Label Classification Using Class-Specific
Counterfactuals [9.485195366036292]
医療画像解析などの高度な応用分野における機械学習アルゴリズムの解釈性は不可欠である。
マルチラベル分類のための本質的に解釈可能なモデルであるAttri-Netを提案する。
Attri-Netは,臨床知識と整合した高品質なマルチラベル説明を生成する。
論文 参考訳(メタデータ) (2023-03-01T13:32:55Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Learning Discriminative Representation via Metric Learning for
Imbalanced Medical Image Classification [52.94051907952536]
本稿では,特徴抽出器がより識別的な特徴表現を抽出するのを助けるために,2段階フレームワークの第1段階にメトリック学習を組み込むことを提案する。
主に3つの医用画像データセットを用いて実験したところ、提案手法は既存の1段階と2段階のアプローチより一貫して優れていた。
論文 参考訳(メタデータ) (2022-07-14T14:57:01Z) - Deep Class-Specific Affinity-Guided Convolutional Network for Multimodal
Unpaired Image Segmentation [7.021001169318551]
マルチモーダル医療イメージセグメンテーションは、臨床診断に不可欠な役割を担います。
入力モダリティはしばしば空間的に整列していないため、依然として困難である。
マルチモーダル画像分割のための親和性誘導完全畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-05T13:56:51Z) - Contrastive Learning of Medical Visual Representations from Paired
Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。
この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文 参考訳(メタデータ) (2020-10-02T02:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。