論文の概要: Exploring Low-Resource Medical Image Classification with Weakly
Supervised Prompt Learning
- arxiv url: http://arxiv.org/abs/2402.03783v1
- Date: Tue, 6 Feb 2024 07:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:55:04.529272
- Title: Exploring Low-Resource Medical Image Classification with Weakly
Supervised Prompt Learning
- Title(参考訳): 弱教師付きプロンプト学習による低リソース医療画像分類の探索
- Authors: Fudan Zheng, Jindong Cao, Weijiang Yu, Zhiguang Chen, Nong Xiao,
Yutong Lu
- Abstract要約: 既存の訓練済みの視覚言語モデルでは、ドメインの専門家が医療プロンプトを慎重に設計する必要がある。
本稿では,医療用プロンプトを自動生成する弱教師付きプロンプト学習手法MedPromptを提案する。
自動生成プロンプトを用いたモデルは,手作りのフルショット学習プロンプトよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 21.604146757986765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most advances in medical image recognition supporting clinical auxiliary
diagnosis meet challenges due to the low-resource situation in the medical
field, where annotations are highly expensive and professional. This
low-resource problem can be alleviated by leveraging the transferable
representations of large-scale pre-trained vision-language models via relevant
medical text prompts. However, existing pre-trained vision-language models
require domain experts to carefully design the medical prompts, which greatly
increases the burden on clinicians. To address this problem, we propose a
weakly supervised prompt learning method MedPrompt to automatically generate
medical prompts, which includes an unsupervised pre-trained vision-language
model and a weakly supervised prompt learning model. The unsupervised
pre-trained vision-language model utilizes the natural correlation between
medical images and corresponding medical texts for pre-training, without any
manual annotations. The weakly supervised prompt learning model only utilizes
the classes of images in the dataset to guide the learning of the specific
class vector in the prompt, while the learning of other context vectors in the
prompt requires no manual annotations for guidance. To the best of our
knowledge, this is the first model to automatically generate medical prompts.
With these prompts, the pre-trained vision-language model can be freed from the
strong expert dependency of manual annotation and manual prompt design.
Experimental results show that the model using our automatically generated
prompts outperforms its full-shot learning hand-crafted prompts counterparts
with only a minimal number of labeled samples for few-shot learning, and
reaches superior or comparable accuracy on zero-shot image classification. The
proposed prompt generator is lightweight and therefore can be embedded into any
network architecture.
- Abstract(参考訳): 臨床補助診断を補助する医用画像認識の進歩は、アノテーションが高価で専門的な医療分野における低リソース化が課題となっている。
この低リソース問題は、関連する医学的テキストプロンプトを介して、大規模な事前訓練された視覚言語モデルの転送可能な表現を活用することで緩和することができる。
しかし、既存の事前訓練された視覚言語モデルでは、医師の負担を大幅に増大させる医療プロンプトを慎重に設計する必要がある。
そこで本研究では,教師なしの視覚言語モデルと弱い教師なしプロンプト学習モデルを含む医学的プロンプトを自動的に生成する,弱い教師付きプロンプト学習法 medprompt を提案する。
教師なし事前訓練された視覚言語モデルは、手作業による注釈なしで、医学画像と対応する医学テキストとの自然な相関を利用して事前訓練を行う。
弱い教師付きプロンプト学習モデルでは、データセット内の画像のクラスのみを使用してプロンプト内の特定のクラスベクトルの学習を誘導する一方、プロンプト内の他のコンテキストベクトルの学習はガイダンスのマニュアルアノテーションを必要としない。
私たちの知る限りでは、これが医療用プロンプトを自動生成する最初のモデルです。
これらのプロンプトにより、トレーニング済みの視覚言語モデルは、手動のアノテーションと手動のプロンプト設計の強い専門家依存から解放することができる。
実験の結果,我々の自動生成プロンプトを用いたモデルは,ゼロショット画像分類において,最小限のラベル付きサンプルしか持たないフルショット学習ハンドクラフトプロンプトよりも優れ,あるいは同等の精度に達することがわかった。
提案するプロンプトジェネレータは軽量であり,任意のネットワークアーキテクチャに組み込むことができる。
関連論文リスト
- Curriculum Prompting Foundation Models for Medical Image Segmentation [17.33821260899367]
医療画像のセグメンテーションにSAMのような、訓練済みの大規模な基礎モデルを適用することは、依然として大きな課題である。
過去の研究は各インスタンスの特定のタイプのプロンプトに大きく依存しており、理想的に正しいプロンプトのマニュアル入力を必要とする。
本稿では,原画像から得られた異なる粒度のプロンプトを利用して,より広範な臨床所見を提供することを提案する。
そこで我々は,異なるタイプのプロンプトを段階的に統合する,カリキュラムプロンプトと呼ばれる粗大な機構を設計した。
論文 参考訳(メタデータ) (2024-09-01T11:00:18Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification [3.1029532920699934]
自然言語処理(NLP)におけるテキスト生成による新しいプロンプト生成手法を提案する。
提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。
RNNベースのデコーダを特徴とするPSPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。
論文 参考訳(メタデータ) (2024-05-10T13:27:32Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Clinical information extraction for Low-resource languages with Few-shot learning using Pre-trained language models and Prompting [12.166472806042592]
臨床資料から医療情報を自動抽出することはいくつかの課題をもたらす。
ドメイン適応とプロンプト手法の最近の進歩は、最小限のトレーニングデータで有望な結果を示した。
軽量でドメイン適応型事前訓練モデルが20ショットでトリガーされ、従来の分類モデルを30.5%精度で上回っていることを実証する。
論文 参考訳(メタデータ) (2024-03-20T08:01:33Z) - XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization [4.634780391920529]
本稿では,画像,学習可能なプロンプト,臨床概念に基づくプロンプトのセマンティクスを整合させることにより,医療知識を活用する新しい説明可能なプロンプト学習フレームワークを提案する。
我々のフレームワークは、大きな言語モデルから知識を引き出すことによって、価値ある概念アノテーションの欠如に対処する。
提案手法は,XAIにおける基礎モデルの有効性に光を当て,優れた診断性能,柔軟性,解釈可能性を実現する。
論文 参考訳(メタデータ) (2024-03-14T14:02:01Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - Medical Image Understanding with Pretrained Vision Language Models: A
Comprehensive Study [8.547751745702156]
我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。
医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
論文 参考訳(メタデータ) (2022-09-30T15:06:13Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。