論文の概要: MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning
- arxiv url: http://arxiv.org/abs/2408.11505v2
- Date: Mon, 07 Apr 2025 09:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 17:33:43.339598
- Title: MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning
- Title(参考訳): MSCPT: マルチスケールおよびコンテキストに着目したプロンプトチューニングによる一眼レフ画像分類
- Authors: Minghao Han, Linhao Qu, Dingkang Yang, Xukun Zhang, Xiaoying Wang, Lihua Zhang,
- Abstract要約: 複数のインスタンス学習は、スライド画像全体の弱教師付き分類の標準パラダイムとなっている。
トレーニングデータの欠如と稀な疾患の存在は、これらの方法に重大な課題をもたらす。
本稿では,Few-shot Weakly Supervised WSI 分類タスクのためのマルチスケールおよびコンテキスト中心の Prompt Tuning (MSCPT) 手法を提案する。
- 参考スコア(独自算出の注目度): 11.717352903130411
- License:
- Abstract: Multiple instance learning (MIL) has become a standard paradigm for the weakly supervised classification of whole slide images (WSIs). However, this paradigm relies on using a large number of labeled WSIs for training. The lack of training data and the presence of rare diseases pose significant challenges for these methods. Prompt tuning combined with pre-trained Vision-Language models (VLMs) is an effective solution to the Few-shot Weakly Supervised WSI Classification (FSWC) task. Nevertheless, applying prompt tuning methods designed for natural images to WSIs presents three significant challenges: 1) These methods fail to fully leverage the prior knowledge from the VLM's text modality; 2) They overlook the essential multi-scale and contextual information in WSIs, leading to suboptimal results; and 3) They lack exploration of instance aggregation methods. To address these problems, we propose a Multi-Scale and Context-focused Prompt Tuning (MSCPT) method for FSWC task. Specifically, MSCPT employs the frozen large language model to generate pathological visual language prior knowledge at multiple scales, guiding hierarchical prompt tuning. Additionally, we design a graph prompt tuning module to learn essential contextual information within WSI, and finally, a non-parametric cross-guided instance aggregation module has been introduced to derive the WSI-level features. Extensive experiments, visualizations, and interpretability analyses were conducted on five datasets and three downstream tasks using three VLMs, demonstrating the strong performance of our MSCPT. All codes have been made publicly accessible at https://github.com/Hanminghao/MSCPT.
- Abstract(参考訳): 多重インスタンス学習(MIL)は、スライド画像全体(WSI)の弱い教師付き分類の標準パラダイムとなっている。
しかし、このパラダイムはトレーニングに多数のラベル付きWSIを使うことに依存しています。
トレーニングデータの欠如と稀な疾患の存在は、これらの方法に重大な課題をもたらす。
Few-shot Weakly Supervised WSI Classification (FSWC) タスクの効果的な解法は、事前訓練されたビジョンランゲージモデル(VLM)と組み合わせたプロンプトチューニングである。
それにもかかわらず、WSIsに自然画像用に設計されたプロンプトチューニング手法を適用することは、以下の3つの重要な課題を提示している。
1) これらの方法は,VLMのテキストモダリティからの事前知識を十分に活用することができない。
2)WSIにおける重要なマルチスケール・コンテキスト情報を見落とし、最適以下の結果をもたらす。
3) インスタンス集約手法の探索は欠如している。
これらの問題に対処するために、FSWCタスクのためのマルチスケールおよびコンテキスト中心のPrompt Tuning(MSCPT)手法を提案する。
特に、MSCPTは、凍結した大きな言語モデルを用いて、複数のスケールで病理的な視覚言語事前の知識を生成し、階層的なプロンプトチューニングを導く。
さらに、WSI内で重要なコンテキスト情報を学習するためのグラフプロンプトチューニングモジュールを設計し、最後にWSIレベルの特徴を引き出すために、非パラメトリックなクロスガイドインスタンスアグリゲーションモジュールを導入しました。
5つのデータセットと3つの下流タスクに対して3つのVLMを用いて大規模な実験,可視化,解釈可能性分析を行い,MSCPTの強い性能を実証した。
すべてのコードはhttps://github.com/Hanminghao/MSCPTで公開されている。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - PathM3: A Multimodal Multi-Task Multiple Instance Learning Framework for Whole Slide Image Classification and Captioning [35.24716774767677]
本稿では,WSI分類とキャプションのためのマルチタスク・マルチインスタンス学習フレームワークPathM3を提案する。
本手法は,限られたWSI診断キャプションデータを活用することで,WSIレベルのキャプションにおけるデータ不足を克服する。
論文 参考訳(メタデータ) (2024-03-13T21:19:12Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - A Dual-branch Self-supervised Representation Learning Framework for
Tumour Segmentation in Whole Slide Images [12.961686610789416]
自己教師付き学習(SSL)は、スライドイメージ全体のアノテーションオーバーヘッドを低減する代替ソリューションとして登場した。
これらのSSLアプローチは、識別画像の特徴を学習する際の性能を制限するマルチレゾリューションWSIを扱うために設計されていない。
マルチ解像度WSIから画像特徴を効果的に学習できるDSF-WSI(Dual-branch SSL Framework for WSI tumour segmentation)を提案する。
論文 参考訳(メタデータ) (2023-03-20T10:57:28Z) - Task-specific Fine-tuning via Variational Information Bottleneck for
Weakly-supervised Pathology Whole Slide Image Classification [10.243293283318415]
MIL(Multiple Instance Learning)は、デジタル・パスロジー・ホール・スライド・イメージ(WSI)分類において有望な結果を示している。
本稿では,Information Bottleneck 理論を動機とした効率的な WSI 微調整フレームワークを提案する。
我々のフレームワークは、様々なWSIヘッド上の5つの病理WSIデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-15T08:41:57Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。