論文の概要: BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.15232v1
- Date: Thu, 21 Nov 2024 19:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:07.609002
- Title: BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models
- Title(参考訳): BiomedCoOp: バイオメディカルビジョンランゲージモデルのためのプロンプト学習
- Authors: Taha Koleilat, Hojat Asgariandehkordi, Hassan Rivaz, Yiming Xiao,
- Abstract要約: 本稿では,バイオメディカル画像の正確かつ汎用的な分類のための新しいプロンプト学習フレームワークを提案する。
提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。
9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
- 参考スコア(独自算出の注目度): 2.2585213273821716
- License:
- Abstract: Recent advancements in vision-language models (VLMs), such as CLIP, have demonstrated substantial success in self-supervised representation learning for vision tasks. However, effectively adapting VLMs to downstream applications remains challenging, as their accuracy often depends on time-intensive and expertise-demanding prompt engineering, while full model fine-tuning is costly. This is particularly true for biomedical images, which, unlike natural images, typically suffer from limited annotated datasets, unintuitive image contrasts, and nuanced visual features. Recent prompt learning techniques, such as Context Optimization (CoOp) intend to tackle these issues, but still fall short in generalizability. Meanwhile, explorations in prompt learning for biomedical image analysis are still highly limited. In this work, we propose BiomedCoOp, a novel prompt learning framework that enables efficient adaptation of BiomedCLIP for accurate and highly generalizable few-shot biomedical image classification. Our approach achieves effective prompt context learning by leveraging semantic consistency with average prompt ensembles from Large Language Models (LLMs) and knowledge distillation with a statistics-based prompt selection strategy. We conducted comprehensive validation of our proposed framework on 11 medical datasets across 9 modalities and 10 organs against existing state-of-the-art methods, demonstrating significant improvements in both accuracy and generalizability. The code will be publicly available at https://github.com/HealthX-Lab/BiomedCoOp.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)の最近の進歩は、視覚タスクのための自己教師型表現学習において大きな成功を収めている。
しかしながら、VLMを下流アプリケーションに効果的に適応させることは依然として困難であり、その正確性は時間集約的かつ専門性を必要とするプロンプトエンジニアリングに依存し、フルモデルの微調整はコストがかかる。
これは、自然画像とは異なり、限られた注釈付きデータセット、直観的でない画像コントラスト、微妙な視覚的特徴に苦しむバイオメディカル画像に特に当てはまる。
コンテキスト最適化(CoOp)のような近年の急進的な学習技術はこれらの問題に対処しようとするが、一般化性には乏しい。
一方、バイオメディカル画像解析のための素早い学習の探索は依然として非常に限られている。
そこで本研究では,BiomedCLIPを高精度かつ高一般化可能なバイオメディカル画像分類に効率的に適用可能な,新しいプロンプト学習フレームワークであるBiomedCoOpを提案する。
提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。
9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
コードはhttps://github.com/HealthX-Lab/BiomedCoOp.comで公開される。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Few-shot Adaptation of Medical Vision-Language Models [17.11090825001394]
本稿では,医療ビジョン言語モデル(VLM)を厳格な数ショット方式で適用するための最初の構造化ベンチマークを紹介する。
視覚プロトタイプとテキスト埋め込みの最適なブレンディングを求める線形プローブ適応ベースラインの簡易な一般化を評価する。
驚くべきことに、このようなテキストインフォームド線形プローブは、複雑なプロンプトラーニングやアダプタベースの戦略と比較して、競合する性能が得られる。
論文 参考訳(メタデータ) (2024-09-05T19:10:29Z) - OPTiML: Dense Semantic Invariance Using Optimal Transport for Self-Supervised Medical Image Representation [6.4136876268620115]
自己教師付き学習(SSL)は、アノテーションなしで学習できることから、医用画像解析の有望な技術として登場した。
本稿では, 最適トランスポート(OT)を用いたSSLフレームワークOPTiMLを導入し, 密接なセマンティック不変性と細粒度の詳細を捉える。
実験の結果,OPTiMLはすべての評価課題において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-18T02:59:48Z) - MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - TransMed: Large Language Models Enhance Vision Transformer for
Biomedical Image Classification [11.202967500669402]
ごく少数のサンプルでモデルをタスクに適応させるために、いくつかのショットラーニングが研究されている。
大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。
以上の結果から,LLMが生成するコンテキストは,類似のカテゴリに対する意味埋め込みの識別を著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T09:58:07Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - DSAL: Deeply Supervised Active Learning from Strong and Weak Labelers
for Biomedical Image Segmentation [13.707848142719424]
アクティブ学習とセミスーパーバイザー学習戦略を組み合わせた深層アクティブセミスーパーバイザー学習フレームワークDSALを提案します。
DSALでは, 深層監視機構に基づく新たな基準が提案され, 高い不確実性を有する情報サンプルを選定する。
提案した基準を用いて,強ラベルと弱ラベルのサンプルを選択し,各アクティブな学習イテレーションにおいて,オラクルラベルと擬似ラベルを同時に生成する。
論文 参考訳(メタデータ) (2021-01-22T11:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。