論文の概要: TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning
- arxiv url: http://arxiv.org/abs/2603.01143v1
- Date: Sun, 01 Mar 2026 15:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.533029
- Title: TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning
- Title(参考訳): TC-SSA:ギガピクセル診断における意味的スロットアグリゲーションによるToken Compression
- Authors: Zhuo Chen, Shawn Young, Lijian Xu,
- Abstract要約: 本稿では,パッチ機能を一定の数のセマンティックスロットに集約する,学習可能なトークン圧縮フレームワークTC-SSAを提案する。
ゲートルーティングモジュールは、スパースなTop-2ルーティングを使用してスロットにパッチを割り当て、次に重み付けされたアグリゲーションによって、厳格なトークン予算の下でグローバルなスライドカバレッジを可能にする。
SlideBench(TCGA)では、全体の精度が78.34%、診断サブセットが77.14%に達し、サンプリングベースベースラインを上回っている。
- 参考スコア(独自算出の注目度): 10.675615956951468
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The application of large vision-language models to computational pathology holds great promise for diagnostic assistants but faces a critical computational bottleneck: the gigapixel scale of Whole Slide Images (WSIs). A single WSI typically contains over 105 patches, creating sequence lengths that exceed the constraints of standard Transformer architectures. Existing solutions often resort to spatial sampling, which risks discarding diagnostically critical evidence. To address this, we propose TC-SSA (Token Compression via Semantic Slot Aggregation), a learnable token compression framework that aggregates patch features into a fixed number of semantic slots. A gated routing module assigns patches to slots using sparse Top-2 routing, followed by weighted aggregation, enabling global slide coverage under a strict token budget. The resulting representation retains diagnostically relevant information while reducing the number of visual tokens to 1.7% of the original sequence. On the SlideBench(TCGA), our model achieves 78.34% overall accuracy and 77.14% on the diagnosis subset, outperforming sampling-based baselines under comparable token budgets. The method also generalizes to MIL classification, reaching AUC of 95.83% on TCGA-BRCA, 98.27% on TCGA-NSCLC and 79.80% on PANDA. These results suggest that learnable semantic aggregation provides an effective trade-off between efficiency and diagnostic performance for gigapixel pathology reasoning.
- Abstract(参考訳): 大規模視覚言語モデルの計算病理学への応用は、診断アシスタントにとって大きな可能性を秘めているが、重要な計算ボトルネックに直面している:WSI(Whole Slide Images)のギガピクセルスケール。
単一のWSIは一般的に105以上のパッチを含み、標準のTransformerアーキテクチャの制約を超えるシーケンス長を生成する。
既存の解決策は、しばしば空間的なサンプリングを頼りにしており、診断学的に重要な証拠を捨てるリスクがある。
そこで本研究では,パッチ機能を一定の数のセマンティックスロットに集約する,学習可能なトークン圧縮フレームワークであるTC-SSAを提案する。
ゲートルーティングモジュールは、スパースなTop-2ルーティングを使用してスロットにパッチを割り当て、次に重み付けされたアグリゲーションによって、厳格なトークン予算の下でグローバルなスライドカバレッジを可能にする。
結果として得られた表現は、診断上の関連情報を保持しながら、視覚トークンの数を元のシーケンスの1.7%に減らしている。
SlideBench(TCGA)では、診断サブセット全体の78.34%の精度と77.14%の精度を達成し、同等のトークン予算の下でサンプリングベースベースラインを上回った。
MIL分類にも一般化され、TGA-BRCAで95.83%、TGA-NSCLCで98.27%、PANDAで79.80%に達する。
これらの結果は,学習可能なセマンティックアグリゲーションが,ギガピクセルの病理解析における効率と診断性能の効果的なトレードオフをもたらすことを示唆している。
関連論文リスト
- Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging [55.62977326180104]
前立腺癌病変の分節化に対する近年の深層学習アプローチは,限られた性能を達成している。
本稿では,標準拡散型プロトコルの拡張として,合成相関拡散イメージング(CDI$s$)について検討する。
以上の結果から,PCa病変セグメント化タスクの実践的ドロップイン強化として,CDI$s$に対する検証済み統合経路が確立された。
論文 参考訳(メタデータ) (2025-11-11T04:16:12Z) - Revisiting Data Challenges of Computational Pathology: A Pack-based Multiple Instance Learning Framework [47.035885218675126]
コンピュータ病理学(CPath)は、病理スライドを全スライド画像(WSI)にデジタル化する
WSIは、非常に長いシーケンス長(最大200K)、相当な長さのバリエーション(200Kから200K)、限られた監督を持っている。
これらの課題に対処するためのパックベースのMILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-25T09:05:40Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction [13.897013242536849]
全スライディング画像(WSI)解析は、ギガピクセルスケールとわずかに分散した診断領域のため、依然として困難である。
本稿では,WSIあたりの平均9つの高解像度パッチだけが,スライドレベルの堅牢な表現に十分であることを示すカスケードデュアルスケール再構築フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-03T08:01:30Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - LESS: Label-efficient Multi-scale Learning for Cytological Whole Slide
Image Screening [19.803614403803962]
スライドレベルラベルのみを用いた細胞学的WSI解析において,LESSと呼ばれる弱教師付きラベル効率WSIスクリーニング法を提案する。
スライドレベルのラベルを用いて適切な監視を行い、パッチレベルの特徴の学習を改善する。
病理組織WSIにおける最新のMIL法よりも優れており、細胞学的WSI検診の自動化を実現している。
論文 参考訳(メタデータ) (2023-06-06T05:09:20Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Hybrid guiding: A multi-resolution refinement approach for semantic
segmentation of gigapixel histopathological images [0.7490318169877296]
セマンティックセグメンテーションのための、H2G-Netと呼ばれるカスケード畳み込みニューラルネットワーク設計を提案する。
設計にはパッチワイズ方式による検出段階と、畳み込みオートエンコーダを用いた改良段階が含まれる。
最高の設計は90 WSIの独立したテストセットでDiceスコア0.933を達成した。
論文 参考訳(メタデータ) (2021-12-07T02:31:29Z) - An Efficient Cervical Whole Slide Image Analysis Framework Based on
Multi-scale Semantic and Spatial Features using Deep Learning [2.7218168309244652]
本研究では,YOLCO(You Only Look Cytopathology Once)という名前の軽量モデルを構築するために,マルチスケール接続を充実させることにより,新しいインライン接続ネットワーク(InCNet)を設計する。
提案したモデルでは、入力サイズをメガピクセルに拡大し、平均リピートで重なり合うことなくWSIを縫合することができる。
統合マルチスケールマルチタスクの特徴を分類するためのTransformerに基づいて、実験結果は、WSI分類における従来の方法よりも0.872$ AUCスコアが良く、2.51times$速く見える。
論文 参考訳(メタデータ) (2021-06-29T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。