論文の概要: PTCMIL: Multiple Instance Learning via Prompt Token Clustering for Whole Slide Image Analysis
- arxiv url: http://arxiv.org/abs/2507.18848v1
- Date: Thu, 24 Jul 2025 23:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.779927
- Title: PTCMIL: Multiple Instance Learning via Prompt Token Clustering for Whole Slide Image Analysis
- Title(参考訳): PTCMIL:全スライド画像解析のためのプロンプトトークンクラスタリングによる複数インスタンス学習
- Authors: Beidi Zhao, SangMook Kim, Hao Chen, Chen Zhou, Zu-hua Gao, Gang Wang, Xiaoxiao Li,
- Abstract要約: MIL(Multiple Instance Learning)は、WSI分析の進歩であるが、WSIの複雑さと不均一性に苦慮している。
MILアグリゲーションのための新しいPmpt Token ClusteringベースのViTであるPTCMILを提案する。
PTCMILはクラスタリングと予測タスクをエンドツーエンドで統合する。
- 参考スコア(独自算出の注目度): 22.06174028063076
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multiple Instance Learning (MIL) has advanced WSI analysis but struggles with the complexity and heterogeneity of WSIs. Existing MIL methods face challenges in aggregating diverse patch information into robust WSI representations. While ViTs and clustering-based approaches show promise, they are computationally intensive and fail to capture task-specific and slide-specific variability. To address these limitations, we propose PTCMIL, a novel Prompt Token Clustering-based ViT for MIL aggregation. By introducing learnable prompt tokens into the ViT backbone, PTCMIL unifies clustering and prediction tasks in an end-to-end manner. It dynamically aligns clustering with downstream tasks, using projection-based clustering tailored to each WSI, reducing complexity while preserving patch heterogeneity. Through token merging and prototype-based pooling, PTCMIL efficiently captures task-relevant patterns. Extensive experiments on eight datasets demonstrate its superior performance in classification and survival analysis tasks, outperforming state-of-the-art methods. Systematic ablation studies confirm its robustness and strong interpretability. The code is released at https://github.com/ubc-tea/PTCMIL.
- Abstract(参考訳): MIL(Multiple Instance Learning)は、WSI分析の進歩であるが、WSIの複雑さと不均一性に苦慮している。
既存のMILメソッドは、様々なパッチ情報を堅牢なWSI表現に集約する際の課題に直面します。
ViTやクラスタリングベースのアプローチは将来性を示すが、それらは計算集約的であり、タスク固有の変数やスライド固有の変数をキャプチャできない。
これらの制約に対処するため,新しいプロンプトトークンクラスタリングベースのMILアグリゲーション用ViTであるPTCMILを提案する。
ViTバックボーンに学習可能なプロンプトトークンを導入することで、PTCMILはクラスタリングと予測タスクをエンドツーエンドで統合する。
クラスタリングと下流タスクを動的に調整し、各WSIに合わせてプロジェクションベースのクラスタリングを使用して、パッチの不均一性を保ちながら複雑さを低減します。
トークンマージとプロトタイプベースのプールにより、PTCMILはタスク関連パターンを効率的にキャプチャする。
8つのデータセットに対する大規模な実験は、分類および生存分析タスクにおいて優れた性能を示し、最先端の手法より優れている。
体系的アブレーション研究は、その堅牢性と強い解釈可能性を確認している。
コードはhttps://github.com/ubc-tea/PTCMILで公開されている。
関連論文リスト
- Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning [11.717352903130411]
複数のインスタンス学習は、スライド画像全体の弱教師付き分類の標準パラダイムとなっている。
トレーニングデータの欠如と稀な疾患の存在は、これらの方法に重大な課題をもたらす。
本稿では,Few-shot Weakly Supervised WSI 分類タスクのためのマルチスケールおよびコンテキスト中心の Prompt Tuning (MSCPT) 手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:25:51Z) - cDP-MIL: Robust Multiple Instance Learning via Cascaded Dirichlet Process [23.266122629592807]
マルチプル・インスタンス・ラーニング (MIL) は全スライス・ヒストパラメトリック・イメージ (WSI) 解析に広く応用されている。
MILの既存の集約戦略は、主にインスタンス間の一階距離に依存するが、各インスタンスの真の特徴分布を正確に近似することができない。
本稿では、複数のインスタンス学習のための新しいベイズ非パラメトリックフレームワークを提案し、WSIのインスタンス・ツー・バッグ特性を組み込むためにディリクレ・プロセスのカスケード(cDP)を採用する。
論文 参考訳(メタデータ) (2024-07-16T07:28:39Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Multi-task learning via robust regularized clustering with non-convex group penalties [0.0]
マルチタスク学習(MTL)は、関連するタスク間で共通情報を共有することにより、推定性能を向上させることを目的としている。
この仮定に基づく既存のMTLメソッドは、しばしば外れたタスクを無視する。
MTLRRC(MultiTask Regularized Clustering)と呼ばれる新しいMTL手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T07:09:43Z) - RetMIL: Retentive Multiple Instance Learning for Histopathological Whole Slide Image Classification [10.365234803533982]
本稿では,階層的特徴伝搬構造を通じてWSIシーケンスを処理するRetMILと呼ばれるリテーナ型MIL法を提案する。
局所レベルでは、WSIシーケンスは複数のサブシーケンスに分割され、各サブシーケンスのトークンは並列線形保持機構によって更新される。
グローバルレベルでは、サブシーケンスをグローバルシーケンスに融合し、シリアル保持機構によって更新し、最後に、グローバルアテンションプーリングによりスライドレベル表現を得る。
論文 参考訳(メタデータ) (2024-03-16T08:50:47Z) - S^2MVTC: a Simple yet Efficient Scalable Multi-View Tensor Clustering [38.35594663863098]
6つの大規模マルチビューデータセットの実験結果から、S2MVTCはクラスタリング性能とCPU実行時間において、最先端のアルゴリズムを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-14T05:00:29Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - Scalable Incomplete Multi-View Clustering with Structure Alignment [71.62781659121092]
本稿では,新しいアンカーグラフ学習フレームワークを提案する。
ビュー固有のアンカーグラフを構築し、異なるビューから補完情報をキャプチャする。
提案したSIMVC-SAの時間と空間の複雑さはサンプル数と線形に相関していることが証明された。
論文 参考訳(メタデータ) (2023-08-31T08:30:26Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。