論文の概要: Few-shot Adaptation of Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2409.03868v1
- Date: Thu, 5 Sep 2024 19:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:30:22.608753
- Title: Few-shot Adaptation of Medical Vision-Language Models
- Title(参考訳): 医用ビジョンランゲージモデルのわずかな適応
- Authors: Fereshteh Shakeri, Yunshi Huang, Julio Silva-Rodríguez, Houda Bahig, An Tang, Jose Dolz, Ismail Ben Ayed,
- Abstract要約: 本稿では,医療ビジョン言語モデル(VLM)を厳格な数ショット方式で適用するための最初の構造化ベンチマークを紹介する。
視覚プロトタイプとテキスト埋め込みの最適なブレンディングを求める線形プローブ適応ベースラインの簡易な一般化を評価する。
驚くべきことに、このようなテキストインフォームド線形プローブは、複雑なプロンプトラーニングやアダプタベースの戦略と比較して、競合する性能が得られる。
- 参考スコア(独自算出の注目度): 17.11090825001394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Integrating image and text data through multi-modal learning has emerged as a new approach in medical imaging research, following its successful deployment in computer vision. While considerable efforts have been dedicated to establishing medical foundation models and their zero-shot transfer to downstream tasks, the popular few-shot setting remains relatively unexplored. Following on from the currently strong emergence of this setting in computer vision, we introduce the first structured benchmark for adapting medical vision-language models (VLMs) in a strict few-shot regime and investigate various adaptation strategies commonly used in the context of natural images. Furthermore, we evaluate a simple generalization of the linear-probe adaptation baseline, which seeks an optimal blending of the visual prototypes and text embeddings via learnable class-wise multipliers. Surprisingly, such a text-informed linear probe yields competitive performances in comparison to convoluted prompt-learning and adapter-based strategies, while running considerably faster and accommodating the black-box setting. Our extensive experiments span three different medical modalities and specialized foundation models, nine downstream tasks, and several state-of-the-art few-shot adaptation methods. We made our benchmark and code publicly available to trigger further developments in this emergent subject: \url{https://github.com/FereshteShakeri/few-shot-MedVLMs}.
- Abstract(参考訳): マルチモーダル学習による画像とテキストデータの統合は、コンピュータビジョンへの展開の成功に続いて、医療画像研究における新しいアプローチとして登場した。
医療基礎モデルの確立と下流のタスクへのゼロショット転送に多くの努力が注がれているが、人気のある数ショット設定はいまだに探索されていない。
コンピュータビジョンにおけるこの設定の現況に続き、厳密な数ショットで医療ビジョン言語モデル(VLM)を適応するための最初の構造化されたベンチマークを導入し、自然画像の文脈でよく使われる様々な適応戦略について検討する。
さらに,学習可能なクラスワイド乗算器による視覚プロトタイプとテキスト埋め込みの最適ブレンディングを求める線形プローブ適応ベースラインの簡易な一般化を評価する。
意外なことに、このようなテキストインフォームド線形プローブは、複雑なプロンプトラーニングやアダプタベースの戦略と比較して競争性能が向上する一方で、ブラックボックスの設定をかなり高速に調整する。
広範にわたる実験は、3つの異なる医療モダリティと専門基礎モデル、9つの下流タスク、そしていくつかの最先端の数ショット適応方法で構成されている。
私たちはベンチマークとコードを公開して、この創発的なテーマのさらなる開発をトリガーしました。
関連論文リスト
- BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models [2.2585213273821716]
本稿では,バイオメディカル画像の正確かつ汎用的な分類のための新しいプロンプト学習フレームワークを提案する。
提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。
9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-11-21T19:13:04Z) - TransMed: Large Language Models Enhance Vision Transformer for
Biomedical Image Classification [11.202967500669402]
ごく少数のサンプルでモデルをタスクに適応させるために、いくつかのショットラーニングが研究されている。
大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。
以上の結果から,LLMが生成するコンテキストは,類似のカテゴリに対する意味埋め込みの識別を著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T09:58:07Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z) - Domain Generalization for Mammography Detection via Multi-style and
Multi-view Contrastive Learning [47.30824944649112]
限られたリソースを持つ様々なベンダーに対して,ディープラーニングモデルの一般化能力を高めるために,新しいコントラスト学習手法を開発した。
バックボーンネットワークは、さまざまなベンダースタイルに不変機能を組み込むために、マルチスタイルでマルチビューで教師なしの自己学習スキームで訓練されている。
実験結果から,本手法は目視領域と目視領域の両方における検出性能を効果的に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-21T14:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。