論文の概要: PathVQ: Reforming Computational Pathology Foundation Model for Whole Slide Image Analysis via Vector Quantization
- arxiv url: http://arxiv.org/abs/2503.06482v1
- Date: Sun, 09 Mar 2025 06:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:54.022080
- Title: PathVQ: Reforming Computational Pathology Foundation Model for Whole Slide Image Analysis via Vector Quantization
- Title(参考訳): PathVQ:ベクトル量子化による全スライド画像解析のための計算病理モデルの改良
- Authors: Honglin Li, Zhongyi Shui, Yunlong Zhang, Chenglu Zhu, Lin Yang,
- Abstract要約: がんの診断と予後には,計算病理学と全スライディング画像(WSI)解析が重要である。
病理基盤モデルの最近の進歩は性能を改善したが、ほとんどのアプローチは[[] タイル ViT をスライドレベル入力としてトークン表現に依存している。
これはパッチトークンから重要な空間の詳細を捨て、下流のWSI分析タスクを制限します。
空間パッチトークンを効率よく圧縮するパッチ特徴量にベクトル量子化(VQ)蒸留を導入する。
- 参考スコア(独自算出の注目度): 9.632442075645542
- License:
- Abstract: Computational pathology and whole-slide image (WSI) analysis are pivotal in cancer diagnosis and prognosis. However, the ultra-high resolution of WSIs presents significant modeling challenges. Recent advancements in pathology foundation models have improved performance, yet most approaches rely on [CLS] token representation of tile ViT as slide-level inputs (16x16 pixels is refereed as patch and 224x224 pixels as tile). This discards critical spatial details from patch tokens, limiting downstream WSI analysis tasks. We find that leveraging all spatial patch tokens benefits WSI analysis but incurs nearly 200x higher storage and training costs (e.g., 196 tokens in ViT$_{224}$). To address this, we introduce vector quantized (VQ) distillation on patch feature, which efficiently compresses spatial patch tokens using discrete indices and a decoder. Our method reduces token dimensionality from 1024 to 16, achieving a 64x compression rate while preserving reconstruction fidelity. Furthermore, we employ a multi-scale VQ (MSVQ) strategy, which not only enhances VQ reconstruction performance but also serves as a Self-supervised Learning (SSL) supervision for a seamless slide-level pretraining objective. Built upon the quantized patch features and supervision targets of tile via MSVQ, we develop a progressive convolutional module and slide-level SSL to extract representations with rich spatial-information for downstream WSI tasks. Extensive evaluations on multiple datasets demonstrate the effectiveness of our approach, achieving state-of-the-art performance in WSI analysis. Code will be available soon.
- Abstract(参考訳): がんの診断と予後には,計算病理学と全スライディング画像(WSI)解析が重要である。
しかし、WSIの超高解像度化は、重要なモデリング上の課題を提示します。
近年の病理基盤モデルの進歩により性能は向上しているが,ほとんどのアプローチでは,スライドレベルの入力としてタイル ViT の [CLS] トークン表現に依存している (16x16 ピクセルをパッチ,224x224 ピクセルをタイルと呼ぶ)。
これはパッチトークンから重要な空間の詳細を捨て、下流のWSI分析タスクを制限します。
すべての空間パッチトークンを活用することは、WSI分析の恩恵を受けるが、ストレージとトレーニングコストが200倍近い(例えば、ViT$_{224}$の196トークン)。
そこで本研究では,離散インデックスとデコーダを用いて空間パッチトークンを効率よく圧縮する,ベクトル量子化(VQ)蒸留法を提案する。
提案手法は, トークンの寸法を1024から16に減らし, 再現性を維持しながら64倍圧縮率を達成する。
さらに,マルチスケールのVQ(MSVQ)戦略を採用し,VQ再構成性能の向上だけでなく,シームレスなスライドレベルの事前学習目的のための自己教師付き学習(SSL)の監視も行っている。
我々は,MSVQを介してタイルの量子化されたパッチ特徴と監視対象に基づいて,下流WSIタスクのための豊富な空間情報で表現を抽出するプログレッシブ畳み込みモジュールとスライドレベルSSLを開発した。
複数のデータセットに対する広範囲な評価は、WSI分析における最先端の性能を達成するために、我々のアプローチの有効性を示す。
コードはまもなく利用可能になる。
関連論文リスト
- PySpatial: A High-Speed Whole Slide Image Pathomics Toolkit [5.52658544303762]
本稿では,WSIレベル解析のための高速パノミクスツールキットであるPySpatialを提案する。
PySpatialは、関心のある計算領域を直接操作することで、従来のパイプラインを合理化する。
血管周囲上皮細胞(PEC)とKidney Precision Medicine Project(KPMP)のデータによる2つのデータセットの実験により,大幅なパフォーマンス向上が得られた。
論文 参考訳(メタデータ) (2025-01-10T18:24:00Z) - Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - PATHS: A Hierarchical Transformer for Efficient Whole Slide Image Analysis [9.862551438475666]
計算病理学におけるスライドレベルタスクにおける階層的弱教師付き表現学習のための新しいトップダウン手法を提案する。
PATHSは、人間の病理医がスライドを検査し、各倍率レベルでパッチを診断に関連する小さなサブセットにフィルタリングする、クロスマグニフィケーションの方法にインスパイアされている。
PATHSをThe Cancer Genome Atlas(TCGA)の5つのデータセットに適用し、スライドレベルの予測タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-27T11:03:38Z) - A self-supervised framework for learning whole slide representations [52.774822784847565]
我々は、全スライド画像のギガピクセルスケールの自己スーパービジョンのためのSlide Pre-trained Transformer (SPT)を提案する。
バイオメディカル・マイクロスコープ・データセットを用いて,5つの診断課題におけるSPT視覚表現のベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-09T05:05:28Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - LESS: Label-efficient Multi-scale Learning for Cytological Whole Slide
Image Screening [19.803614403803962]
スライドレベルラベルのみを用いた細胞学的WSI解析において,LESSと呼ばれる弱教師付きラベル効率WSIスクリーニング法を提案する。
スライドレベルのラベルを用いて適切な監視を行い、パッチレベルの特徴の学習を改善する。
病理組織WSIにおける最新のMIL法よりも優れており、細胞学的WSI検診の自動化を実現している。
論文 参考訳(メタデータ) (2023-06-06T05:09:20Z) - Task-specific Fine-tuning via Variational Information Bottleneck for
Weakly-supervised Pathology Whole Slide Image Classification [10.243293283318415]
MIL(Multiple Instance Learning)は、デジタル・パスロジー・ホール・スライド・イメージ(WSI)分類において有望な結果を示している。
本稿では,Information Bottleneck 理論を動機とした効率的な WSI 微調整フレームワークを提案する。
我々のフレームワークは、様々なWSIヘッド上の5つの病理WSIデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-15T08:41:57Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - An Efficient Cervical Whole Slide Image Analysis Framework Based on
Multi-scale Semantic and Spatial Features using Deep Learning [2.7218168309244652]
本研究では,YOLCO(You Only Look Cytopathology Once)という名前の軽量モデルを構築するために,マルチスケール接続を充実させることにより,新しいインライン接続ネットワーク(InCNet)を設計する。
提案したモデルでは、入力サイズをメガピクセルに拡大し、平均リピートで重なり合うことなくWSIを縫合することができる。
統合マルチスケールマルチタスクの特徴を分類するためのTransformerに基づいて、実験結果は、WSI分類における従来の方法よりも0.872$ AUCスコアが良く、2.51times$速く見える。
論文 参考訳(メタデータ) (2021-06-29T06:24:55Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。