論文の概要: Medical Image Understanding with Pretrained Vision Language Models: A
Comprehensive Study
- arxiv url: http://arxiv.org/abs/2209.15517v1
- Date: Fri, 30 Sep 2022 15:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:49:56.267416
- Title: Medical Image Understanding with Pretrained Vision Language Models: A
Comprehensive Study
- Title(参考訳): 事前学習型視覚言語モデルを用いた医用画像理解 : 総合的研究
- Authors: Ziyuan Qin, Huahui Yi, Qicheng Lao, Kang Li
- Abstract要約: 我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。
医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
- 参考スコア(独自算出の注目度): 8.547751745702156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large-scale pre-trained vision language models (VLM) have shown
remarkable domain transfer capability on natural images. However, it remains
unknown whether this capability can also apply to the medical image domain.
This paper thoroughly studies the knowledge transferability of pre-trained VLMs
to the medical domain, where we show that well-designed medical prompts are the
key to elicit knowledge from pre-trained VLMs. We demonstrate that by prompting
with expressive attributes that are shared between domains, the VLM can carry
the knowledge across domains and improve its generalization. This mechanism
empowers VLMs to recognize novel objects with fewer or without image samples.
Furthermore, to avoid the laborious manual designing process, we develop three
approaches for automatic generation of medical prompts, which can inject
expert-level medical knowledge and image-specific information into the prompts
for fine-grained grounding. We conduct extensive experiments on thirteen
different medical datasets across various modalities, showing that our
well-designed prompts greatly improve the zero-shot performance compared to the
default prompts, and our fine-tuned models surpass the supervised models by a
significant margin.
- Abstract(参考訳): vlm(large-scale pre-trained vision language models)は自然画像上でのドメイン転送能力を示す。
しかし、この能力が医用画像領域にも適用できるかどうかは不明である。
本稿では,事前訓練VLMの医用領域への知識伝達可能性について,十分に設計された医用プロンプトが,事前訓練VLMから知識を引き出す鍵であることを示す。
本稿では,ドメイン間で共有される表現的属性によって,VLMがドメイン間の知識を伝達し,その一般化を改善することを実証する。
このメカニズムにより、VLMは画像サンプルが少なくても新しいオブジェクトを認識することができる。
さらに, 精巧な手動設計プロセスを避けるために, 専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する医療プロンプトの自動生成のための3つのアプローチを開発した。
我々は,13種類の医療用データセットを様々なモードにまたがって広範な実験を行い,我々の設計したプロンプトが,デフォルトプロンプトに比べてゼロショット性能を大幅に改善し,微調整されたモデルが教師ありモデルを大幅に上回ったことを示した。
関連論文リスト
- VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge [33.25976241152384]
一般視覚言語モデル(VLM)はコンピュータビジョンにおいて大きな進歩を遂げてきたが、医療などの専門分野では不足している。
従来のコンピュータビジョンタスクでは、創造的あるいは近似的な回答は受け入れられるかもしれないが、医療では精度が最重要である。
本稿では,専門モデルを用いた領域知識を活用した医療用VLMのための新しいフレームワークVILA-M3を提案する。
論文 参考訳(メタデータ) (2024-11-19T22:59:14Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision [17.583536041845402]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから37個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - Domain Generalization on Medical Imaging Classification using Episodic
Training with Task Augmentation [62.49837463676111]
本稿では,医用画像分類におけるタスク強化によるエピソードトレーニングの新たな手法を提案する。
実際の医療展開において、限られた数のソースドメインによって動機付けられ、ユニークなタスクレベルのオーバーフィッティングを検討します。
論文 参考訳(メタデータ) (2021-06-13T03:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。