論文の概要: Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology
- arxiv url: http://arxiv.org/abs/2503.17238v1
- Date: Fri, 21 Mar 2025 15:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:29.345036
- Title: Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology
- Title(参考訳): 視覚言語モデルを用いたスライドレベルプロンプト学習による病理組織学におけるFew-Shot Multiple Instance Learning
- Authors: Devavrat Tomar, Guillaume Vray, Dwarikanath Mahapatra, Sudipta Roy, Jean-Philippe Thiran, Behzad Bozorgtabar,
- Abstract要約: 病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。
本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。
本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
- 参考スコア(独自算出の注目度): 21.81603581614496
- License:
- Abstract: In this paper, we address the challenge of few-shot classification in histopathology whole slide images (WSIs) by utilizing foundational vision-language models (VLMs) and slide-level prompt learning. Given the gigapixel scale of WSIs, conventional multiple instance learning (MIL) methods rely on aggregation functions to derive slide-level (bag-level) predictions from patch representations, which require extensive bag-level labels for training. In contrast, VLM-based approaches excel at aligning visual embeddings of patches with candidate class text prompts but lack essential pathological prior knowledge. Our method distinguishes itself by utilizing pathological prior knowledge from language models to identify crucial local tissue types (patches) for WSI classification, integrating this within a VLM-based MIL framework. Our approach effectively aligns patch images with tissue types, and we fine-tune our model via prompt learning using only a few labeled WSIs per category. Experimentation on real-world pathological WSI datasets and ablation studies highlight our method's superior performance over existing MIL- and VLM-based methods in few-shot WSI classification tasks. Our code is publicly available at https://github.com/LTS5/SLIP.
- Abstract(参考訳): 本稿では,基礎的視覚言語モデル(VLM)とスライドレベルの即時学習を利用して,病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。
WSIのギガピクセルスケールを考えると、従来のマルチインスタンス学習(MIL)手法は、トレーニングに広範なバッグレベルラベルを必要とするパッチ表現からスライドレベル(バッグレベル)の予測を導出する集約関数に依存している。
対照的に、VLMベースのアプローチは、パッチの視覚的埋め込みと候補クラスのテキストプロンプトとの整合性が優れているが、本質的な病理的な事前知識は欠如している。
本手法は,WSI分類において重要な局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することにより,それをVLMベースのMILフレームワークに組み込むことにより,自己を識別する。
本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
実世界の病理WSIデータセットの実験とアブレーション研究は,WSI分類タスクにおける既存のMIL法やVLM法よりも優れた性能を示す。
私たちのコードはhttps://github.com/LTS5/SLIPで公開されています。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。
本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:49:34Z) - MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning [11.717352903130411]
多重インスタンス学習(MIL)は、スライド画像全体(WSI)の弱い教師付き分類のための標準パラダイムとなっている。
トレーニングデータの欠如と稀な疾患の存在は,これらの方法に重大な課題をもたらす。
本稿では、FSWCタスクのためのマルチスケールおよびコンテキスト中心のPrompt Tuning(MSCPT)手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:25:51Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - TPMIL: Trainable Prototype Enhanced Multiple Instance Learning for Whole
Slide Image Classification [13.195971707693365]
我々は、弱い教師付きWSI分類のための訓練可能なプロトタイプ強化深層MILフレームワークを開発した。
本手法により, 異なる腫瘍のサブタイプ間の相関関係を明らかにすることができる。
提案手法を2つのWSIデータセット上でテストし,新たなSOTAを実現する。
論文 参考訳(メタデータ) (2023-05-01T07:39:19Z) - Active Learning Enhances Classification of Histopathology Whole Slide
Images with Attention-based Multiple Instance Learning [48.02011627390706]
我々は、注意に基づくMILをトレーニングし、データセット内の各画像に対する信頼度を算出し、専門家のアノテーションに対して最も不確実なWSIを選択する。
新たな注意誘導損失により、各クラスにアノテートされた領域がほとんどない、トレーニングされたモデルの精度が向上する。
将来的には、病理組織学における癌分類の臨床的に関連する文脈において、MILモデルのトレーニングに重要な貢献をする可能性がある。
論文 参考訳(メタデータ) (2023-03-02T15:18:58Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。