論文の概要: Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images
- arxiv url: http://arxiv.org/abs/2503.10731v1
- Date: Thu, 13 Mar 2025 12:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:43.746627
- Title: Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images
- Title(参考訳): 病理画像におけるゼロショット学習のための視覚言語埋め込みの活用
- Authors: Md Mamunur Rahaman, Ewan K. A. Millar, Erik Meijering,
- Abstract要約: ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
- 参考スコア(独自算出の注目度): 7.048241543461529
- License:
- Abstract: Zero-shot learning holds tremendous potential for histopathology image analysis by enabling models to generalize to unseen classes without extensive labeled data. Recent advancements in vision-language models (VLMs) have expanded the capabilities of ZSL, allowing models to perform tasks without task-specific fine-tuning. However, applying VLMs to histopathology presents considerable challenges due to the complexity of histopathological imagery and the nuanced nature of diagnostic tasks. In this paper, we propose a novel framework called Multi-Resolution Prompt-guided Hybrid Embedding (MR-PHE) to address these challenges in zero-shot histopathology image classification. MR-PHE leverages multiresolution patch extraction to mimic the diagnostic workflow of pathologists, capturing both fine-grained cellular details and broader tissue structures critical for accurate diagnosis. We introduce a hybrid embedding strategy that integrates global image embeddings with weighted patch embeddings, effectively combining local and global contextual information. Additionally, we develop a comprehensive prompt generation and selection framework, enriching class descriptions with domain-specific synonyms and clinically relevant features to enhance semantic understanding. A similarity-based patch weighting mechanism assigns attention-like weights to patches based on their relevance to class embeddings, emphasizing diagnostically important regions during classification. Our approach utilizes pretrained VLM, CONCH for ZSL without requiring domain-specific fine-tuning, offering scalability and reducing dependence on large annotated datasets. Experimental results demonstrate that MR-PHE not only significantly improves zero-shot classification performance on histopathology datasets but also often surpasses fully supervised models.
- Abstract(参考訳): ゼロショット学習は、広範囲なラベル付きデータなしで、モデルが目に見えないクラスに一般化できるようにすることで、病理画像解析に大きな可能性を秘めている。
視覚言語モデル(VLM)の最近の進歩により、ZSLの能力が拡張され、タスク固有の微調整なしでモデルがタスクを実行できるようになった。
しかし, 病理組織学にVLMを適用することは, 病理像の複雑化と診断タスクの微妙な性質に起因して, かなりの課題を生んでいる。
本稿では,ゼロショット組織像分類におけるこれらの課題に対処するため,MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
MR-PHEは、マルチレゾリューションパッチ抽出を利用して、病理医の診断ワークフローを模倣し、微細な細胞の詳細と、正確な診断に不可欠なより広い組織構造の両方をキャプチャする。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合し,局所的およびグローバルな文脈情報を効果的に組み合わせたハイブリッドな埋め込み戦略を導入する。
さらに、ドメイン固有の同義語と臨床的に関連性のある特徴でクラス記述を充実させ、セマンティックな理解を深める包括的プロンプト生成と選択の枠組みを開発する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、注意のような重み付けをパッチに割り当て、分類中の診断上重要な領域を強調する。
提案手法では、ドメイン固有の微調整を必要とせず、事前訓練されたVLM, CONCH for ZSLを利用し、拡張性を提供し、大規模な注釈付きデータセットへの依存を減らす。
実験結果から,MR-PHEは病理組織学的データセットのゼロショット分類性能を著しく向上するだけでなく,完全教師付きモデルを上回ることが多いことが示唆された。
関連論文リスト
- Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection [11.532639713283226]
臨床報告からテキストを用いてLGE検出のモデルを訓練するために,ドメイン知識に根ざした戦略を用いる。
我々は、画像の向きを解剖学的に表現した方法で標準化し、空間的特徴とテキスト的特徴のより優れたアライメントを可能にする。
モデル全体の性能に対する各デザインコンポーネントの貢献を明らかにするためのアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2025-02-18T15:30:48Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - OTCXR: Rethinking Self-supervised Alignment using Optimal Transport for Chest X-ray Analysis [6.4136876268620115]
自己教師付き学習(SSL)は,X線などの医学的モダリティを解析するための有望な手法として登場した。
我々は,OTCXRを提案する。OTCXRは最適なトランスポート(OT)を利用して,密接なセマンティック不変性を学習する新しいSSLフレームワークである。
我々はOTCXRの有効性を3つの公開胸部X線データセットの総合的な実験により検証した。
論文 参考訳(メタデータ) (2024-04-18T02:59:48Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - Active Learning Enhances Classification of Histopathology Whole Slide
Images with Attention-based Multiple Instance Learning [48.02011627390706]
我々は、注意に基づくMILをトレーニングし、データセット内の各画像に対する信頼度を算出し、専門家のアノテーションに対して最も不確実なWSIを選択する。
新たな注意誘導損失により、各クラスにアノテートされた領域がほとんどない、トレーニングされたモデルの精度が向上する。
将来的には、病理組織学における癌分類の臨床的に関連する文脈において、MILモデルのトレーニングに重要な貢献をする可能性がある。
論文 参考訳(メタデータ) (2023-03-02T15:18:58Z) - Histopathology DatasetGAN: Synthesizing Large-Resolution Histopathology
Datasets [0.0]
病理組織学的データセットGAN(HDGAN)は、画像の生成と分割のためのフレームワークであり、大きな解像度の病理組織像によく対応している。
生成したバックボーンの更新,ジェネレータからの遅延特徴の選択的抽出,メモリマップされた配列への切り替えなど,オリジナルのフレームワークからいくつかの適応を行う。
血栓性微小血管症における高分解能タイルデータセット上でHDGANを評価し,高分解能画像アノテーション生成タスクにおいて高い性能を示した。
論文 参考訳(メタデータ) (2022-07-06T14:33:50Z) - ScoreNet: Learning Non-Uniform Attention and Augmentation for
Transformer-Based Histopathological Image Classification [11.680355561258427]
高解像度画像はデジタル病理の進歩を妨げる。
パッチベースの処理は、しばしば複数のインスタンス学習(MIL)を組み込んで、画像レベルの予測をもたらす局所的なパッチレベルの表現を集約する。
本稿では,組織像分類に適したトランスフォーマーアーキテクチャを提案する。
局所的なきめ細かな注意と粗いグローバルな注意機構を組み合わせることで、高解像度画像の意味的な表現を効率的な計算コストで学習する。
論文 参考訳(メタデータ) (2022-02-15T16:55:09Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Multi-label Thoracic Disease Image Classification with Cross-Attention
Networks [65.37531731899837]
胸部X線画像から胸部疾患を自動分類するためのCAN(Cross-Attention Networks)を提案する。
また,クロスエントロピー損失を超える新たな損失関数を設計し,クラス間の不均衡を克服する。
論文 参考訳(メタデータ) (2020-07-21T14:37:00Z) - Data Efficient and Weakly Supervised Computational Pathology on Whole
Slide Images [4.001273534300757]
計算病理学は、客観的診断、治療反応予測、臨床関連性の新たな形態学的特徴の同定を可能にする可能性がある。
ディープラーニングベースの計算病理学アプローチでは、完全に教師された設定でギガピクセル全体のスライド画像(WSI)のマニュアルアノテーションを必要とするか、弱い教師付き設定でスライドレベルのラベルを持つ何千ものWSIを必要とする。
ここでは、クラスタリングに制約のある複数のインスタンス学習について紹介する。
論文 参考訳(メタデータ) (2020-04-20T23:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。