論文の概要: SPAN: Unlocking Pyramid Representations for Gigapixel Histopathological Images
- arxiv url: http://arxiv.org/abs/2406.09333v2
- Date: Mon, 04 Aug 2025 01:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.537304
- Title: SPAN: Unlocking Pyramid Representations for Gigapixel Histopathological Images
- Title(参考訳): SPAN:ギガピクセルの病理像をアンロックしたピラミッド表現
- Authors: Weiyi Wu, Xingjian Diao, Chongyang Gao, Xinwen Xu, Siting Li, Jiang Gui,
- Abstract要約: 全体スライド画像(WSI)は、ギガピクセルスケールの解像度と、スパースで不規則に分布する情報領域により、基本的な計算課題を提示する。
本研究では,空間的関係を正確に保存する疎結合型計算フレームワークを提案する。
SPAN(Sparse Pyramid Attention Networks)を開発した。
- 参考スコア(独自算出の注目度): 8.026588319629528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole slide images (WSIs) present fundamental computational challenges due to their gigapixel-scale resolutions and sparse, irregularly distributed informative regions. Conventional patch-based methods inevitably distort spatial relationships or treat patches as independent samples, while traditional attention mechanisms, designed for dense, uniformly distributed data, are computationally impractical for WSIs. To address these limitations, we propose a novel sparse-native computational framework that preserves exact spatial relationships, unlocking advanced modeling techniques and bridging a long-standing gap between WSI analysis and general vision. Based on this framework, we develop Sparse Pyramid Attention Networks (SPAN), incorporating a hierarchical sparse pyramid attention architecture with shifted windows that efficiently directs computational resources to informative regions. SPAN comprises two key modules: Spatial-Adaptive Feature Condensation, which progressively builds multi-scale representations from a single-scale input through sparse downsampling, and Context-Aware Feature Refinement, which captures long-range dependencies via shifted windows and global tokens. Evaluations on multiple public datasets demonstrate SPAN's superior performance over state-of-the-art methods, validating both our framework's effectiveness and SPAN's specific advantages in capturing contextual and hierachical representations that existing methods fundamentally cannot model. Our work establishes a new paradigm for WSI analysis that overcomes long-standing computational barriers. The code will be made publicly available upon publication.
- Abstract(参考訳): 全体スライド画像(WSI)は、ギガピクセルスケールの解像度と、スパースで不規則に分布する情報領域により、基本的な計算課題を提示する。
従来のパッチベースの手法は必然的に空間的関係を歪ませたり、パッチを独立したサンプルとして扱う。
これらの制約に対処するために、正確な空間関係を保存し、高度なモデリング手法を開放し、WSI分析と一般的なビジョンの長年のギャップを埋める、新しい疎結合な計算フレームワークを提案する。
この枠組みに基づいてスパースピラミッド注意ネットワーク(SPAN)を開発し、階層的なスパースピラミッド注意アーキテクチャとシフトウインドウを組み込むことにより、計算資源を情報領域に効率的に誘導する。
SPANは2つの重要なモジュールで構成されている。空間適応的特徴凝縮(Spatial-Adaptive Feature Condensation)は、スパースダウンサンプリングによるシングルスケールインプットからのマルチスケール表現を段階的に構築する。
複数の公開データセットに対する評価は、SPANが最先端の手法よりも優れた性能を示し、既存の手法が基本的にモデル化できない文脈的および階層的表現をキャプチャする上で、我々のフレームワークの有効性とSPAN特有の利点の両方を検証している。
我々の研究は、長期間の計算障壁を克服するWSI分析の新しいパラダイムを確立します。
コードは公開時に公開される。
関連論文リスト
- Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction [13.897013242536849]
全スライディング画像(WSI)解析は、ギガピクセルスケールとわずかに分散した診断領域のため、依然として困難である。
本稿では,WSIあたりの平均9つの高解像度パッチだけが,スライドレベルの堅牢な表現に十分であることを示すカスケードデュアルスケール再構築フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-03T08:01:30Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - Threshold Attention Network for Semantic Segmentation of Remote Sensing Images [3.5449012582104795]
自己認識機構(SA)はセグメンテーションネットワークの設計に有効な手法である。
セマンティックセグメンテーションのための新しいしきい値注意機構(TAM)を提案する。
TAMに基づいて,セマンティックセグメンテーションのためのしきい値注意ネットワーク(TANet)を提案する。
論文 参考訳(メタデータ) (2025-01-14T10:09:55Z) - Clustered Patch Embeddings for Permutation-Invariant Classification of Whole Slide Images [2.6733991338938026]
Whole Slide Imaging (WSI)は、デジタル病理学の基礎であり、診断と研究に不可欠な詳細な洞察を提供する。
しかし、WSIのギガピクセルサイズは計算上の大きな課題を課し、実用性を制限している。
我々の新しいアプローチは、様々なエンコーダをインテリジェントなデータ還元に活用し、WSIの堅牢で置換不変な表現を保証するために異なる分類モデルを採用することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-11-13T11:25:05Z) - Efficient Whole Slide Image Classification through Fisher Vector Representation [2.4472081831862655]
本稿では,最も情報性の高いパッチの識別と検証を自動化し,WSI分類の新しい手法を提案する。
提案手法は2段階からなる。まず,その病理学的意義に基づいて,WSIから少数のパッチのみを抽出し,次いで,これらのパッチから抽出した特徴を表現するためにFisherベクトルを用いる。
このアプローチは、WSI表現内の主要な病理的特徴をアクセントするだけでなく、計算オーバーヘッドを大幅に減らし、プロセスをより効率的かつスケーラブルにする。
論文 参考訳(メタデータ) (2024-11-13T11:24:12Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - EPNet: An Efficient Pyramid Network for Enhanced Single-Image
Super-Resolution with Reduced Computational Requirements [12.439807086123983]
シングルイメージ超解像(SISR)は、ディープラーニングの統合によって大幅に進歩した。
本稿では,エッジ分割ピラミッドモジュール (ESPM) とパノラマ特徴抽出モジュール (PFEM) を調和して結合し,既存の手法の限界を克服する,EPNet (Efficient Pyramid Network) を提案する。
論文 参考訳(メタデータ) (2023-12-20T19:56:53Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Task-specific Fine-tuning via Variational Information Bottleneck for
Weakly-supervised Pathology Whole Slide Image Classification [10.243293283318415]
MIL(Multiple Instance Learning)は、デジタル・パスロジー・ホール・スライド・イメージ(WSI)分類において有望な結果を示している。
本稿では,Information Bottleneck 理論を動機とした効率的な WSI 微調整フレームワークを提案する。
我々のフレームワークは、様々なWSIヘッド上の5つの病理WSIデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-15T08:41:57Z) - FV-UPatches: Enhancing Universality in Finger Vein Recognition [0.6299766708197883]
限られたデータで学習しながら一般化を実現するユニバーサルラーニングベースのフレームワークを提案する。
提案フレームワークは、他の静脈ベースの生体認証にも応用可能性を示す。
論文 参考訳(メタデータ) (2022-06-02T14:20:22Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。