論文の概要: Thinking in Scales: Accelerating Gigapixel Pathology Image Analysis via Adaptive Continuous Reasoning
- arxiv url: http://arxiv.org/abs/2605.19491v2
- Date: Sun, 24 May 2026 16:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.753792
- Title: Thinking in Scales: Accelerating Gigapixel Pathology Image Analysis via Adaptive Continuous Reasoning
- Title(参考訳): 大規模思考:適応的連続推論によるギガピクセル画像解析の高速化
- Authors: Jiusong Ge, Yingkang Zhan, Wenjie Zhao, Di Zhang, Ke Wang, Jiashuai Liu, Chunze Yang, Chengzu Li, Jian Zhang, Yuxin Dong, Ni Zhang, Qidong Liu, Mireia Crispin-Ortuzar, Huazhu Fu, Chen Li, Zeyu Gao,
- Abstract要約: スライド画像全体に対してトークン効率のよいスケール空間連続推論を可能にするPathCTMを提案する。
PathCTMは診断推論を動的逐次情報追跡として定式化する。
必要な画像パッチの数を95.95%削減し、推論時間を約95.62%短縮し、AUCを劣化せずに維持する。
- 参考スコア(独自算出の注目度): 52.41928980786654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional whole slide image (WSI) analysis methods typically rely on the multiple instance learning (MIL) paradigm, which extracts patch-level features at high magnification and aggregates them for slide-level prediction. However, such exhaustive patch-level processing is computationally expensive, severely limiting the efficiency and scalability of WSI analysis. To address this challenge, we propose PathCTM (a Pathology-oriented Continuous Thought Model) that enables token-efficient scale-space continuous reasoning for gigapixel WSIs. PathCTM formulates diagnostic inference as a dynamic sequential information pursuit. It progressively transitions from low-magnification global to high-magnification local inspection, and adaptively terminates inference when sufficient evidence is gathered to effectively bound decision uncertainty. Specifically, it uses conditional computation for dynamic scale switching with attention-guided region pruning, coupled with confidence-aware early stopping. Extensive experiments demonstrate that, compared with standard MIL-based methods, PathCTM reduces the number of required image patches by 95.95% and shortens inference time by approximately 95.62%, while maintaining AUC without degradation. Code is available at https://github.com/JSGe-AI/PathCTM.
- Abstract(参考訳): 従来の全スライド画像(WSI)解析手法は、通常、多重インスタンス学習(MIL)パラダイムに依存しており、高い倍率でパッチレベルの特徴を抽出し、スライドレベルの予測のためにそれらを集約する。
しかし、そのような徹底的なパッチレベルの処理は計算コストが高く、WSI分析の効率とスケーラビリティを著しく制限する。
この課題に対処するため、我々は、ギガピクセルWSIに対するトークン効率のよいスケールスペース連続推論を可能にするPathCTM(PathCTM)を提案する。
PathCTMは診断推論を動的逐次情報追跡として定式化する。
低磁化グローバルから高磁化ローカル検査へと徐々に移行し、十分な証拠が集められた場合に推論を適応的に終了し、決定の不確実性を効果的に束縛する。
具体的には、注意誘導領域プルーニングによる動的スケールスイッチングの条件計算と、信頼認識早期停止を併用する。
大規模な実験では、標準的なMILベースの手法と比較して、PathCTMは必要な画像パッチの数を95.95%削減し、推論時間を約95.62%短縮し、AUCを劣化せずに維持することを示した。
コードはhttps://github.com/JSGe-AI/PathCTMで入手できる。
関連論文リスト
- SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation [12.0982298854338]
Continual Test-Time Adaptation (CTTA)は、トレーニング済みのモデルが、ラベルなしドメインの継続的な変更に適応できるようにすることを目的としている。
医用画像セグメンテーションのためのセマンティック・プロンプト拡張グラフクラスタリング(SPEGC)によるCTTAを提案する。
論文 参考訳(メタデータ) (2026-03-12T03:22:43Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Uncertainty-aware retinal layer segmentation in OCT through probabilistic signed distance functions [6.765624289092461]
オプティカルコヒーレンス・トモグラフィー(OCT)スキャンにおける不確実性認識網膜層セグメンテーションの新しいアプローチを提案する。
本手法は、レベルセットを介して網膜層形状を効果的にパラメータ化する符号付き距離関数(SDF)を予測することにより、セグメンテーションを洗練する。
これにより、あいまいな入力、撮像ノイズ、信頼できないセグメンテーションが存在する場合でも、網膜層の堅牢な表現が保証される。
論文 参考訳(メタデータ) (2024-12-06T10:44:11Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - PRISTA-Net: Deep Iterative Shrinkage Thresholding Network for Coded
Diffraction Patterns Phase Retrieval [6.982256124089]
位相検索は、計算画像および画像処理における非線型逆問題である。
我々は,1次反復しきい値しきい値アルゴリズム(ISTA)に基づく深層展開ネットワークであるPRISTA-Netを開発した。
非線形変換,しきい値,ステップサイズなど,提案するPRISTA-Netフレームワークのパラメータはすべて,設定されるのではなく,エンドツーエンドで学習される。
論文 参考訳(メタデータ) (2023-09-08T07:37:15Z) - Task-specific Fine-tuning via Variational Information Bottleneck for
Weakly-supervised Pathology Whole Slide Image Classification [10.243293283318415]
MIL(Multiple Instance Learning)は、デジタル・パスロジー・ホール・スライド・イメージ(WSI)分類において有望な結果を示している。
本稿では,Information Bottleneck 理論を動機とした効率的な WSI 微調整フレームワークを提案する。
我々のフレームワークは、様々なWSIヘッド上の5つの病理WSIデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-15T08:41:57Z) - Language models are good pathologists: using attention-based sequence
reduction and text-pretrained transformers for efficient WSI classification [0.21756081703275998]
全体スライド画像(WSI)解析は通常、多重インスタンス学習(MIL)問題として定式化される。
textitSeqShortは、各WSIを固定サイズと短サイズのインスタンスのシーケンスで要約するシーケンス短縮レイヤである。
本稿では,大容量のテキストデータに対して,下流トランスフォーマーアーキテクチャの事前訓練を行った場合,WSI分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T14:11:31Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。