論文の概要: Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction
- arxiv url: http://arxiv.org/abs/2508.01641v1
- Date: Sun, 03 Aug 2025 08:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.984614
- Title: Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction
- Title(参考訳): 極小高分解能パッチはカスケードデュアルスケール再構成による全スライド画像表現に十分である
- Authors: Yujian Liu, Yuechuan Lin, Dongxu Shen, Haoran Li, Yutong Wang, Xiaoli Liu, Shidang Xu,
- Abstract要約: 全スライディング画像(WSI)解析は、ギガピクセルスケールとわずかに分散した診断領域のため、依然として困難である。
本稿では,WSIあたりの平均9つの高解像度パッチだけが,スライドレベルの堅牢な表現に十分であることを示すカスケードデュアルスケール再構築フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.897013242536849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole-slide image (WSI) analysis remains challenging due to the gigapixel scale and sparsely distributed diagnostic regions. Multiple Instance Learning (MIL) mitigates this by modeling the WSI as bags of patches for slide-level prediction. However, most MIL approaches emphasize aggregator design while overlooking the impact of the feature extractor of the feature extraction stage, which is often pretrained on natural images. This leads to domain gap and suboptimal representations. Self-supervised learning (SSL) has shown promise in bridging domain gap via pretext tasks, but it still primarily builds upon generic backbones, thus requiring WSIs to be split into small patches. This inevitably splits histological structures and generates both redundant and interdependent patches, which in turn degrades aggregator performance and drastically increases training costs. To address this challenge, we propose a Cascaded Dual-Scale Reconstruction (CDSR) framework, demonstrating that only an average of 9 high-resolution patches per WSI are sufficient for robust slide-level representation. CDSR employs a two-stage selective sampling strategy that identifies the most informative representative regions from both model-based and semantic perspectives. These patches are then fed into a Local-to-Global Network, which reconstructs spatially coherent high-resolution WSI representations by integrating fine-grained local detail with global contextual information. Unlike existing dense-sampling or SSL pipelines, CDSR is optimized for efficiency and morphological fidelity. Experiments on Camelyon16, TCGA-NSCLC, and TCGA-RCC demonstrate that CDSR achieves improvements of 6.3% in accuracy and 5.5% in area under ROC curve on downstream classification tasks with only 7,070 (4.5% of total) high-resolution patches per dataset on average, outperforming state-of-the-art methods trained on over 10,000,000 patches.
- Abstract(参考訳): ギガピクセルスケールと小分散診断領域のため,全スライディング画像(WSI)解析は依然として困難である。
多重インスタンス学習(MIL)は、スライドレベルの予測のためのパッチの袋としてWSIをモデル化することでこれを緩和する。
しかし、ほとんどのMILアプローチは、自然画像に事前訓練される特徴抽出段階の特徴抽出器の影響を見越しながら、アグリゲータ設計を強調している。
これはドメインギャップと準最適表現につながる。
自己教師付き学習(SSL)は、プレテキストタスクを介してドメインギャップを埋めることの約束を示しているが、それでも主に一般的なバックボーンの上に構築されているため、WSIを小さなパッチに分割する必要がある。
これは必然的に組織構造を分割し、冗長パッチと相互パッチの両方を生成する。
この課題に対処するために,カスケード型デュアルスケール再構築(CDSR)フレームワークを提案し,WSIあたりの平均9つの高解像度パッチだけが堅牢なスライドレベル表現に十分であることを示した。
CDSRは、モデルベースとセマンティックの観点から最も情報性の高い代表領域を識別する2段階の選択的サンプリング戦略を採用している。
これらのパッチをローカル・ツー・グローバル・ネットワークに入力し、局所的な詳細をグローバルな文脈情報と統合することにより、空間的に一貫性のある高解像度WSI表現を再構成する。
既存の高密度サンプリングやSSLパイプラインとは異なり、CDSRは効率性と形態的忠実度に最適化されている。
Camelyon16, TCGA-NSCLC, TCGA-RCCの実験により、CDSRは1万以上のパッチでトレーニングされた平均7,070(全体の4.5%)の高解像度パッチで、下流分類タスクにおいてROC曲線の下での精度6.3%と5.5%の改善を達成した。
関連論文リスト
- AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Baltimore Atlas: FreqWeaver Adapter for Semi-supervised Ultra-high Spatial Resolution Land Cover Classification [6.922029098479534]
提案手法は, より優れた構造整合性を有するロバストなセグメンテーション結果を提供する。
既存のパラメータ効率のチューニング戦略よりも1.78%改善し、最先端の高解像度リモートセンシングセグメンテーションアプローチに比べて3.44%向上した。
論文 参考訳(メタデータ) (2025-06-18T15:41:29Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - When Segmentation Meets Hyperspectral Image: New Paradigm for Hyperspectral Image Classification [4.179738334055251]
ハイパースペクトル画像(HSI)分類は、リモートセンシングの基盤であり、豊富なスペクトル情報を通じて正確な材料と土地被覆の識別を可能にする。
ディープラーニングはこのタスクに大きな進歩をもたらしたが、小さなパッチベースの分類器は進歩の90%以上を占めており、制限に直面している。
本研究では, HSI分類のための新しいパラダイムとベースラインであるHSIsegを提案し, これらの課題を克服するために, 分割手法と新しい動的シフト地域変換器(DSRT)を組み合わせる。
論文 参考訳(メタデータ) (2025-02-18T05:04:29Z) - Rethinking the Upsampling Layer in Hyperspectral Image Super Resolution [51.98465973507002]
ハイパースペクトル画像のマルチスケールチャネル特性のキャリブレーションにチャネルアテンションを組み込んだ,新しい軽量SHSRネットワーク LKCA-Net を提案する。
我々は、学習可能なアップサンプリング層の低ランク特性が軽量なSHSR手法における重要なボトルネックであることを初めて証明した。
論文 参考訳(メタデータ) (2025-01-30T15:43:34Z) - SPAN: Unlocking Pyramid Representations for Gigapixel Histopathological Images [8.026588319629528]
全体スライド画像(WSI)は、ギガピクセルスケールの解像度と、スパースで不規則に分布する情報領域により、基本的な計算課題を提示する。
本研究では,空間的関係を正確に保存する疎結合型計算フレームワークを提案する。
SPAN(Sparse Pyramid Attention Networks)を開発した。
論文 参考訳(メタデータ) (2024-06-13T17:14:30Z) - PatchScaler: An Efficient Patch-Independent Diffusion Model for Image Super-Resolution [44.345740602726345]
PatchScalerは、単一画像超解像のための効率的なパッチ非依存拡散パイプラインである。
テクスチャは、共通参照テクスチャメモリから、ターゲットパッチのテクスチャ先行を適応的に検索する。
本コードでは,定量評価と定性評価の両方において優れた性能を示し,推論を著しく高速化する。
論文 参考訳(メタデータ) (2024-05-27T13:31:46Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - An Efficient Cervical Whole Slide Image Analysis Framework Based on
Multi-scale Semantic and Spatial Features using Deep Learning [2.7218168309244652]
本研究では,YOLCO(You Only Look Cytopathology Once)という名前の軽量モデルを構築するために,マルチスケール接続を充実させることにより,新しいインライン接続ネットワーク(InCNet)を設計する。
提案したモデルでは、入力サイズをメガピクセルに拡大し、平均リピートで重なり合うことなくWSIを縫合することができる。
統合マルチスケールマルチタスクの特徴を分類するためのTransformerに基づいて、実験結果は、WSI分類における従来の方法よりも0.872$ AUCスコアが良く、2.51times$速く見える。
論文 参考訳(メタデータ) (2021-06-29T06:24:55Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。