論文の概要: Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts?
- arxiv url: http://arxiv.org/abs/2409.02729v2
- Date: Sat, 29 Mar 2025 19:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:29:43.324686
- Title: Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts?
- Title(参考訳): 言語誘導型教師なし適応は、未確認画像とテキストを用いた医用画像分類を改善することができるか?
- Authors: Umaima Rahman, Raza Imam, Mohammad Yaqub, Boulbaba Ben Amor, Dwarikanath Mahapatra,
- Abstract要約: 医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
視覚言語モデル(VLM)のアンダーラインUnアンダーライン適応(textttMedUnA)を提案する。
LLMの生成した各クラスの記述は、テキスト埋め込みにエンコードされ、クロスモーダルアダプタを介してクラスラベルにマッチする。
- 参考スコア(独自算出の注目度): 14.547437214214485
- License:
- Abstract: In medical image classification, supervised learning is challenging due to the scarcity of labeled medical images. To address this, we leverage the visual-textual alignment within Vision-Language Models (VLMs) to enable unsupervised learning of a medical image classifier. In this work, we propose \underline{Med}ical \underline{Un}supervised \underline{A}daptation (\texttt{MedUnA}) of VLMs, where the LLM-generated descriptions for each class are encoded into text embeddings and matched with class labels via a cross-modal adapter. This adapter attaches to a visual encoder of \texttt{MedCLIP} and aligns the visual embeddings through unsupervised learning, driven by a contrastive entropy-based loss and prompt tuning. Thereby, improving performance in scenarios where textual information is more abundant than labeled images, particularly in the healthcare domain. Unlike traditional VLMs, \texttt{MedUnA} uses \textbf{unpaired images and text} for learning representations and enhances the potential of VLMs beyond traditional constraints. We evaluate the performance on three chest X-ray datasets and two multi-class datasets (diabetic retinopathy and skin lesions), showing significant accuracy gains over the zero-shot baseline. Our code is available at https://github.com/rumaima/meduna.
- Abstract(参考訳): 医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
これを解決するために、視覚言語モデル(VLM)内の視覚的・テキスト的アライメントを活用し、医用画像分類器の教師なし学習を可能にする。
本稿では,VLM の \underline{Med}ical \underline{Un}supervised \underline{A}daptation (\texttt{MedUnA}) を提案する。
このアダプタは、texttt{MedCLIP} のビジュアルエンコーダにアタッチされ、対照的なエントロピーに基づく損失と迅速なチューニングによって駆動される教師なし学習を通じて視覚的な埋め込みを調整する。
これにより、特に医療領域において、ラベル付き画像よりもテキスト情報が豊富であるシナリオのパフォーマンスが向上する。
従来のVLMとは異なり、 \texttt{MedUnA} は表現の学習に \textbf{unpaired image and text} を使用し、従来の制約を超えて VLM の可能性を高める。
3つの胸部X線データセットと2つのマルチクラスデータセット(糖尿病網膜症と皮膚病変)の性能評価を行い,ゼロショットベースラインよりも有意に精度が向上した。
私たちのコードはhttps://github.com/rumaima/meduna.comで公開されています。
関連論文リスト
- Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [13.94586574102162]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。
TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文 参考訳(メタデータ) (2024-12-18T06:19:03Z) - Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection [10.269746485037935]
本稿では,WSVAD の正規性ガイダンス付き Text Prompt に基づく新しい擬似ラベル生成と自己学習フレームワークを提案する。
提案手法は,UCF-CrimeとXD-Violeの2つのベンチマークデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-12T15:18:25Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Improving Joint Learning of Chest X-Ray and Radiology Report by Word
Region Alignment [9.265044250068554]
本稿では,胸部X線画像の事前学習のためのJoImTeRNet(JoImTeRNet)を提案する。
このモデルは、視覚的テキストマッチングのためのグローバル画像文レベルとローカル画像領域語レベルの両方で事前訓練された。
論文 参考訳(メタデータ) (2021-09-04T22:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。