論文の概要: Cross-Modal Prototype Allocation: Unsupervised Slide Representation Learning via Patch-Text Contrast in Computational Pathology
- arxiv url: http://arxiv.org/abs/2503.20190v1
- Date: Wed, 26 Mar 2025 03:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:39.381803
- Title: Cross-Modal Prototype Allocation: Unsupervised Slide Representation Learning via Patch-Text Contrast in Computational Pathology
- Title(参考訳): クロスモーダルなプロトタイプ配置:計算病理におけるパッチテキストコントラストによる教師なしスライド表現学習
- Authors: Yuxuan Chen, Jiawen Li, Jiali Hu, Xitong Ling, Tian Guan, Anjia Han, Yonghong He,
- Abstract要約: ProAlignは、クロスモーダルな教師なしスライド表現学習フレームワークである。
スライド画像全体に存在するプロトタイプタイプの記述テキストを生成するために,大規模言語モデル(LLM)を利用する。
本稿では、パッチとこれらのプロトタイプの類似性を利用して、教師なしスライド埋め込みを形成するパラメータフリーアテンションアグリゲーション戦略を提案する。
- 参考スコア(独自算出の注目度): 10.811667603360041
- License:
- Abstract: With the rapid advancement of pathology foundation models (FMs), the representation learning of whole slide images (WSIs) attracts increasing attention. Existing studies develop high-quality patch feature extractors and employ carefully designed aggregation schemes to derive slide-level representations. However, mainstream weakly supervised slide representation learning methods, primarily based on multiple instance learning (MIL), are tailored to specific downstream tasks, which limits their generalizability. To address this issue, some studies explore unsupervised slide representation learning. However, these approaches focus solely on the visual modality of patches, neglecting the rich semantic information embedded in textual data. In this work, we propose ProAlign, a cross-modal unsupervised slide representation learning framework. Specifically, we leverage a large language model (LLM) to generate descriptive text for the prototype types present in a WSI, introducing patch-text contrast to construct initial prototype embeddings. Furthermore, we propose a parameter-free attention aggregation strategy that utilizes the similarity between patches and these prototypes to form unsupervised slide embeddings applicable to a wide range of downstream tasks. Extensive experiments on four public datasets show that ProAlign outperforms existing unsupervised frameworks and achieves performance comparable to some weakly supervised models.
- Abstract(参考訳): 病理基盤モデル(FM)の急速な進歩により,スライド画像全体(WSI)の表現学習が注目されている。
既存の研究では、高品質なパッチ特徴抽出器を開発し、スライドレベルの表現を導出するために慎重に設計されたアグリゲーションスキームを採用している。
しかし、主にMIL(Multiple instance learning)に基づく、主流に教師付きスライド表現学習法は、その一般化性を制限する特定の下流タスクに適合している。
この問題に対処するために、教師なしスライド表現学習について検討する研究もある。
しかし、これらのアプローチはパッチの視覚的モダリティにのみ焦点をあて、テキストデータに埋め込まれたリッチな意味情報を無視する。
本研究では,クロスモーダルな教師なしスライド表現学習フレームワークProAlignを提案する。
具体的には、大規模な言語モデル(LLM)を活用して、WSI に存在するプロトタイプタイプの記述テキストを生成し、初期プロトタイプの埋め込みを構築するためにパッチテキストコントラストを導入します。
さらに、パッチとこれらのプロトタイプの類似性を利用して、幅広い下流タスクに適用可能な教師なしスライド埋め込みを形成するパラメータフリーアテンションアグリゲーション戦略を提案する。
4つの公開データセットに対する大規模な実験は、ProAlignが既存の教師なしフレームワークより優れており、弱教師付きモデルに匹敵するパフォーマンスを達成することを示している。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Learning Visual Proxy for Compositional Zero-Shot Learning [15.183106475115583]
視覚分布の学習を容易にする新しいアプローチである視覚プロキシラーニングを紹介する。
本稿では,原文画像空間と細粒度視覚空間との相互制約を課す効果的なクロスモーダル・ジョイント・ラーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-01-23T17:30:27Z) - Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP [19.697857943845012]
本稿では,テキストプロトタイプの助けを借りて,視覚空間におけるクラス固有の視覚プロトタイプを学習するためのフレームワークを提案する。
また、対応するプロトタイプに埋め込まれた領域を対比する地域意味コントラストモジュールを提案する。
提案するフレームワークは,2つのベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-27T13:55:11Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - SLPD: Slide-level Prototypical Distillation for WSIs [11.217079419686472]
コンテキストモデリングのためのスライディング内およびスライディング間セマンティック構造を探索するために,SLPD(Slide-Level Prototypeal Distillation)を提案する。
SLPDは、複数のスライドレベルのベンチマークで最先端の結果を達成し、スライドのセマンティックな構造の表現学習がWSI分析に適したプロキシタスクを実現できることを示した。
論文 参考訳(メタデータ) (2023-07-20T08:38:15Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。