論文の概要: KPL: Training-Free Medical Knowledge Mining of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.11231v1
- Date: Mon, 20 Jan 2025 02:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:37.631659
- Title: KPL: Training-Free Medical Knowledge Mining of Vision-Language Models
- Title(参考訳): KPL:ビジョンランゲージモデルの無トレーニング医療知識マイニング
- Authors: Jiaxiang Liu, Tianxiang Hu, Jiawei Du, Ruiyuan Zhang, Joey Tianyi Zhou, Zuozhu Liu,
- Abstract要約: 知識プロキシ学習(KPL)は、CLIPのマルチモーダル理解を医療画像分類に活用するために設計された。
KPLは、構築された知識強化ベースから画像関連知識記述を検索し、セマンティックテキストプロキシを豊かにする。
入力画像とこれらの記述をCLIPでエンコードし、安定してマルチモーダルプロキシを生成し、ゼロショット分類性能を向上する。
- 参考スコア(独自算出の注目度): 38.85906425979443
- License:
- Abstract: Visual Language Models such as CLIP excel in image recognition due to extensive image-text pre-training. However, applying the CLIP inference in zero-shot classification, particularly for medical image diagnosis, faces challenges due to: 1) the inadequacy of representing image classes solely with single category names; 2) the modal gap between the visual and text spaces generated by CLIP encoders. Despite attempts to enrich disease descriptions with large language models, the lack of class-specific knowledge often leads to poor performance. In addition, empirical evidence suggests that existing proxy learning methods for zero-shot image classification on natural image datasets exhibit instability when applied to medical datasets. To tackle these challenges, we introduce the Knowledge Proxy Learning (KPL) to mine knowledge from CLIP. KPL is designed to leverage CLIP's multimodal understandings for medical image classification through Text Proxy Optimization and Multimodal Proxy Learning. Specifically, KPL retrieves image-relevant knowledge descriptions from the constructed knowledge-enhanced base to enrich semantic text proxies. It then harnesses input images and these descriptions, encoded via CLIP, to stably generate multimodal proxies that boost the zero-shot classification performance. Extensive experiments conducted on both medical and natural image datasets demonstrate that KPL enables effective zero-shot image classification, outperforming all baselines. These findings highlight the great potential in this paradigm of mining knowledge from CLIP for medical image classification and broader areas.
- Abstract(参考訳): CLIPのようなビジュアル言語モデルは、画像テキストの事前トレーニングによって画像認識に優れる。
しかし、ゼロショット分類におけるCLIP推論の適用、特に医用画像診断では、次のような課題に直面している。
1) イメージクラスを単一のカテゴリ名のみで表現する不適切さ
2)CLIPエンコーダが生成する視覚空間とテキスト空間のモーダルギャップ。
大きな言語モデルで病気の記述を豊かにしようとする試みにもかかわらず、クラス固有の知識の欠如は、しばしばパフォーマンスの低下につながる。
さらに、実験的な証拠は、天然画像データセット上のゼロショット画像分類のための既存のプロキシ学習手法が、医学的データセットに適用する際の不安定性を示すことを示唆している。
このような課題に対処するために,CLIPから知識を抽出するKPL(Knowledge Proxy Learning)を導入する。
KPLは、テキストプロキシ最適化とマルチモーダルプロキシ学習を通じて、医療画像分類のためのCLIPのマルチモーダル理解を活用するように設計されている。
具体的には、KPLは、構築された知識強化ベースから画像関連知識記述を取得し、セマンティックテキストプロキシを豊かにする。
入力画像とこれらの記述をCLIPでエンコードし、安定してマルチモーダルプロキシを生成し、ゼロショット分類性能を向上する。
医用画像データセットと自然画像データセットの両方で行われた大規模な実験は、KPLが効果的なゼロショット画像分類を可能にし、すべてのベースラインを上回ります。
これらの知見は、医療画像分類や広範囲の領域において、CLIPからのマイニング知識のパラダイムにおける大きな可能性を浮き彫りにしている。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Data Alignment for Zero-Shot Concept Generation in Dermatology AI [0.6906005491572401]
ゼロショット機能を提供するCLIPのようなファンデーションモデルは、この課題を軽減するのに役立つ。
CLIPは、ドメイン固有のイメージキャプチャペアを使用して微調整することで、分類性能を改善することができる。
私たちのゴールは、これらのモデルを使用して、臨床辞書とCLIPの事前学習データに使用される自然言語の両方に適合するキャプションテキストを生成することです。
論文 参考訳(メタデータ) (2024-04-19T17:57:29Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - A ChatGPT Aided Explainable Framework for Zero-Shot Medical Image
Diagnosis [15.13309228766603]
診断にChatGPTを付加した新しいCLIPベースのゼロショット画像分類フレームワークを提案する。
鍵となるアイデアは、大きな言語モデル(LLM)をカテゴリ名でクエリして、追加のキューと知識を自動的に生成することだ。
1つのプライベートデータセットと4つのパブリックデータセットの広範な結果と詳細な分析は、トレーニング不要なゼロショット診断パイプラインの有効性と説明可能性を示している。
論文 参考訳(メタデータ) (2023-07-05T01:45:19Z) - Exploring the Versatility of Zero-Shot CLIP for Interstitial Lung
Disease Classification [0.36646002427839136]
ILD分類のためのマルチモーダル(画像とテキスト)自己教師モデルであるCLIPを利用する機械学習手法を提案する。
ボリュームCTスキャンから画像パッチの最初の抽出から始まり,ワークフロー全体を通じてゼロショットCLIPを広範囲に統合する。
我々は、ラベル付きトレーニングデータを必要としない、0.893のAUROCを含む強力なゼロショットLD分類結果を得る。
論文 参考訳(メタデータ) (2023-06-01T19:52:33Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。