論文の概要: Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts?
- arxiv url: http://arxiv.org/abs/2409.02729v2
- Date: Sat, 29 Mar 2025 19:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.650871
- Title: Can language-guided unsupervised adaptation improve medical image classification using unpaired images and texts?
- Title(参考訳): 言語誘導型教師なし適応は、未確認画像とテキストを用いた医用画像分類を改善することができるか?
- Authors: Umaima Rahman, Raza Imam, Mohammad Yaqub, Boulbaba Ben Amor, Dwarikanath Mahapatra,
- Abstract要約: 医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
視覚言語モデル(VLM)のアンダーラインUnアンダーライン適応(textttMedUnA)を提案する。
LLMの生成した各クラスの記述は、テキスト埋め込みにエンコードされ、クロスモーダルアダプタを介してクラスラベルにマッチする。
- 参考スコア(独自算出の注目度): 14.547437214214485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical image classification, supervised learning is challenging due to the scarcity of labeled medical images. To address this, we leverage the visual-textual alignment within Vision-Language Models (VLMs) to enable unsupervised learning of a medical image classifier. In this work, we propose \underline{Med}ical \underline{Un}supervised \underline{A}daptation (\texttt{MedUnA}) of VLMs, where the LLM-generated descriptions for each class are encoded into text embeddings and matched with class labels via a cross-modal adapter. This adapter attaches to a visual encoder of \texttt{MedCLIP} and aligns the visual embeddings through unsupervised learning, driven by a contrastive entropy-based loss and prompt tuning. Thereby, improving performance in scenarios where textual information is more abundant than labeled images, particularly in the healthcare domain. Unlike traditional VLMs, \texttt{MedUnA} uses \textbf{unpaired images and text} for learning representations and enhances the potential of VLMs beyond traditional constraints. We evaluate the performance on three chest X-ray datasets and two multi-class datasets (diabetic retinopathy and skin lesions), showing significant accuracy gains over the zero-shot baseline. Our code is available at https://github.com/rumaima/meduna.
- Abstract(参考訳): 医用画像分類では,ラベル付き医用画像が不足しているため,教師あり学習が困難である。
これを解決するために、視覚言語モデル(VLM)内の視覚的・テキスト的アライメントを活用し、医用画像分類器の教師なし学習を可能にする。
本稿では,VLM の \underline{Med}ical \underline{Un}supervised \underline{A}daptation (\texttt{MedUnA}) を提案する。
このアダプタは、texttt{MedCLIP} のビジュアルエンコーダにアタッチされ、対照的なエントロピーに基づく損失と迅速なチューニングによって駆動される教師なし学習を通じて視覚的な埋め込みを調整する。
これにより、特に医療領域において、ラベル付き画像よりもテキスト情報が豊富であるシナリオのパフォーマンスが向上する。
従来のVLMとは異なり、 \texttt{MedUnA} は表現の学習に \textbf{unpaired image and text} を使用し、従来の制約を超えて VLM の可能性を高める。
3つの胸部X線データセットと2つのマルチクラスデータセット(糖尿病網膜症と皮膚病変)の性能評価を行い,ゼロショットベースラインよりも有意に精度が向上した。
私たちのコードはhttps://github.com/rumaima/meduna.comで公開されています。
関連論文リスト
- MedFILIP: Medical Fine-grained Language-Image Pre-training [11.894318326422054]
既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。
MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。
単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-01-18T14:08:33Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Image Class Translation Distance: A Novel Interpretable Feature for Image Classification [0.0]
本稿では,画像分類のための新しい画像翻訳ネットワークを提案する。
我々は、可能なクラス間で画像を翻訳し、翻訳距離を定量化するネットワークを訓練する。
これらの翻訳距離はクラスタや傾向について調べることができ、単純な分類器に直接供給することができる。
おもちゃの2クラスシナリオ、リンゴ対オレンジのアプローチを実証し、それを2つの医療画像タスクに適用する。
論文 参考訳(メタデータ) (2024-08-16T18:48:28Z) - MMCLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training [29.02600107837688]
本稿では,MMCLIP(Masked Medical Contrastive Language- Image Pre-Training)フレームワークを提案する。
まず、注意マッピング画像モデリング(AttMIM)とエンティティ駆動マスキング言語モデリングモジュール(EntMLM)を紹介する。
第2に、MMCLIPは、病原性プロンプトを導入してマルチモーダル学習を強化するために、不適切なデータを大まかに活用する。
論文 参考訳(メタデータ) (2024-07-28T17:38:21Z) - Data Alignment for Zero-Shot Concept Generation in Dermatology AI [0.6906005491572401]
ゼロショット機能を提供するCLIPのようなファンデーションモデルは、この課題を軽減するのに役立つ。
CLIPは、ドメイン固有のイメージキャプチャペアを使用して微調整することで、分類性能を改善することができる。
私たちのゴールは、これらのモデルを使用して、臨床辞書とCLIPの事前学習データに使用される自然言語の両方に適合するキャプションテキストを生成することです。
論文 参考訳(メタデータ) (2024-04-19T17:57:29Z) - Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection [10.269746485037935]
本稿では,WSVAD の正規性ガイダンス付き Text Prompt に基づく新しい擬似ラベル生成と自己学習フレームワークを提案する。
提案手法は,UCF-CrimeとXD-Violeの2つのベンチマークデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-12T15:18:25Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - LViT: Language meets Vision Transformer in Medical Image Segmentation [12.755116093159035]
LViT (Language meets Vision Transformer) を提案する。
LViTモデルでは,画像データの品質低下を補うために医療用テキストアノテーションが組み込まれている。
提案するLViTは,完全教師付きと半教師付きの両方でセグメンテーション性能が優れている。
論文 参考訳(メタデータ) (2022-06-29T15:36:02Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Improving Joint Learning of Chest X-Ray and Radiology Report by Word
Region Alignment [9.265044250068554]
本稿では,胸部X線画像の事前学習のためのJoImTeRNet(JoImTeRNet)を提案する。
このモデルは、視覚的テキストマッチングのためのグローバル画像文レベルとローカル画像領域語レベルの両方で事前訓練された。
論文 参考訳(メタデータ) (2021-09-04T22:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。