論文の概要: MedUnA: Language guided Unsupervised Adaptation of Vision-Language Models for Medical Image Classification
- arxiv url: http://arxiv.org/abs/2409.02729v1
- Date: Tue, 3 Sep 2024 09:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 17:55:43.327632
- Title: MedUnA: Language guided Unsupervised Adaptation of Vision-Language Models for Medical Image Classification
- Title(参考訳): MedUnA:医療画像分類のためのビジョン言語モデルの教師なし適応に関する言語ガイド
- Authors: Umaima Rahman, Raza Imam, Dwarikanath Mahapatra, Boulbaba Ben Amor,
- Abstract要約: 本稿では,2段階の学習:適応事前学習と教師なし学習を構成するアンダーラインMedical UnderlineUnsupervised UnderlineAdaptation (textttMedUnA)を提案する。
胸部X線像,眼底画像,皮膚病変画像の3種類のデータモダリティを用いたtextttMedUnA の評価を行った。
- 参考スコア(独自算出の注目度): 14.725941791069852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical image classification, supervised learning is challenging due to the lack of labeled medical images. Contrary to the traditional \textit{modus operandi} of pre-training followed by fine-tuning, this work leverages the visual-textual alignment within Vision-Language models (\texttt{VLMs}) to facilitate the unsupervised learning. Specifically, we propose \underline{Med}ical \underline{Un}supervised \underline{A}daptation (\texttt{MedUnA}), constituting two-stage training: Adapter Pre-training, and Unsupervised Learning. In the first stage, we use descriptions generated by a Large Language Model (\texttt{LLM}) corresponding to class labels, which are passed through the text encoder \texttt{BioBERT}. The resulting text embeddings are then aligned with the class labels by training a lightweight \texttt{adapter}. We choose \texttt{\texttt{LLMs}} because of their capability to generate detailed, contextually relevant descriptions to obtain enhanced text embeddings. In the second stage, the trained \texttt{adapter} is integrated with the visual encoder of \texttt{MedCLIP}. This stage employs a contrastive entropy-based loss and prompt tuning to align visual embeddings. We incorporate self-entropy minimization into the overall training objective to ensure more confident embeddings, which are crucial for effective unsupervised learning and alignment. We evaluate the performance of \texttt{MedUnA} on three different kinds of data modalities - chest X-rays, eye fundus and skin lesion images. The results demonstrate significant accuracy gain on average compared to the baselines across different datasets, highlighting the efficacy of our approach.
- Abstract(参考訳): 医用画像分類では,ラベル付き医用画像が欠如しているため,教師あり学習が困難である。
事前学習の伝統的な \textit{modus operandi} とは対照的に、この研究は教師なし学習を促進するためにビジョンランゲージモデル(\texttt{VLMs})内の視覚的・テキスト的アライメントを活用する。
具体的には、アダプタ事前学習(Adapter Pre-training)とアントラクタラーニング(Unsupervised Learning)という2段階のトレーニングを構成する、 \underline{Med}ical \underline{Un}supervised \underline{A}daptation (\textt{MedUnA})を提案する。
最初の段階では、クラスラベルに対応するLarge Language Model (\texttt{LLM}) によって生成された記述を使用し、テキストエンコーダ \texttt{BioBERT} に渡される。
結果のテキスト埋め込みは、軽量な \texttt{adapter} をトレーニングすることで、クラスラベルと整列する。
我々は、拡張されたテキスト埋め込みを得るために、詳細でコンテキストに関連のある記述を生成することができるため、 \texttt{\textt{LLMs}}を選択する。
第二段階では、訓練された \texttt{adapter} は \texttt{MedCLIP} のビジュアルエンコーダと統合される。
このステージでは、対照的なエントロピーに基づく損失と、視覚的な埋め込みを調整するための迅速なチューニングが採用されている。
自己エントロピーの最小化を総合的な学習目標に組み込んで、効果的な教師なし学習とアライメントに欠かせない、より確実な埋め込みを保証する。
胸部X線, 眼底, 皮膚病変画像の3種類のデータモダリティについて, textt{MedUnA} の評価を行った。
その結果, 異なるデータセット間のベースラインと比較すると, 平均精度が有意に向上し, 提案手法の有効性が明らかとなった。
関連論文リスト
- Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection [10.269746485037935]
本稿では,WSVAD の正規性ガイダンス付き Text Prompt に基づく新しい擬似ラベル生成と自己学習フレームワークを提案する。
提案手法は,UCF-CrimeとXD-Violeの2つのベンチマークデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-12T15:18:25Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - LViT: Language meets Vision Transformer in Medical Image Segmentation [12.755116093159035]
LViT (Language meets Vision Transformer) を提案する。
LViTモデルでは,画像データの品質低下を補うために医療用テキストアノテーションが組み込まれている。
提案するLViTは,完全教師付きと半教師付きの両方でセグメンテーション性能が優れている。
論文 参考訳(メタデータ) (2022-06-29T15:36:02Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Improving Joint Learning of Chest X-Ray and Radiology Report by Word
Region Alignment [9.265044250068554]
本稿では,胸部X線画像の事前学習のためのJoImTeRNet(JoImTeRNet)を提案する。
このモデルは、視覚的テキストマッチングのためのグローバル画像文レベルとローカル画像領域語レベルの両方で事前訓練された。
論文 参考訳(メタデータ) (2021-09-04T22:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。