論文の概要: 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification
- arxiv url: http://arxiv.org/abs/2412.00678v1
- Date: Sun, 01 Dec 2024 05:42:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:48.836854
- Title: 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification
- Title(参考訳): 2DMamba: 画像表現のための効率的な状態空間モデルとGiga-Pixel全スライド画像分類への応用
- Authors: Jingwei Zhang, Anh Tien Nguyen, Xi Han, Vincent Quoc-Huy Trinh, Hong Qin, Dimitris Samaras, Mahdi S. Hosseini,
- Abstract要約: マンバは線形複雑性と高い並列性を持つ選択的状態空間モデル(SSM)を導入した。
画像の2次元空間構造を組み込んだ新しい2次元選択型SSMフレームワークである2DMambaを提案する。
WSI分類と生存分析のための10の公開データセットの実験では、2DMambaimがAUCで2.48%$、F1で3.11%$、精度で2.47%$、C-indexで5.52%$まで改善している。
- 参考スコア(独自算出の注目度): 40.10133518650528
- License:
- Abstract: Efficiently modeling large 2D contexts is essential for various fields including Giga-Pixel Whole Slide Imaging (WSI) and remote sensing. Transformer-based models offer high parallelism but face challenges due to their quadratic complexity for handling long sequences. Recently, Mamba introduced a selective State Space Model (SSM) with linear complexity and high parallelism, enabling effective and efficient modeling of wide context in 1D sequences. However, extending Mamba to vision tasks, which inherently involve 2D structures, results in spatial discrepancies due to the limitations of 1D sequence processing. On the other hand, current 2D SSMs inherently model 2D structures but they suffer from prohibitively slow computation due to the lack of efficient parallel algorithms. In this work, we propose 2DMamba, a novel 2D selective SSM framework that incorporates the 2D spatial structure of images into Mamba, with a highly optimized hardware-aware operator, adopting both spatial continuity and computational efficiency. We validate the versatility of our approach on both WSIs and natural images. Extensive experiments on 10 public datasets for WSI classification and survival analysis show that 2DMamba~improves up to $2.48\%$ in AUC, $3.11\%$ in F1 score, $2.47\%$ in accuracy and $5.52\%$ in C-index. Additionally, integrating our method with VMamba for natural imaging yields $0.5$ to $0.7$ improvements in mIoU on the ADE20k semantic segmentation dataset, and $0.2\%$ accuracy improvement on ImageNet-1K classification dataset. Our code is available at https://github.com/AtlasAnalyticsLab/2DMamba.
- Abstract(参考訳): Giga-Pixel Whole Slide Imaging(WSI)やリモートセンシングなど,さまざまな分野において,大規模な2次元コンテキストの効率的なモデリングが不可欠である。
トランスフォーマーベースのモデルは高い並列性を提供するが、長いシーケンスを扱うための二次的な複雑さのために困難に直面している。
最近、Mambaは線形複雑性と高い並列性を持つ選択的状態空間モデル(SSM)を導入し、1Dシーケンスにおける広いコンテキストの効果的かつ効率的なモデリングを可能にした。
しかし、マンバを2次元構造を含む視覚タスクに拡張することは、1次元シーケンス処理の限界により空間的不一致をもたらす。
一方、現在の2D SSMは本質的に2D構造をモデル化しているが、効率的な並列アルゴリズムが欠如しているため、計算が著しく遅い。
本研究では,画像の2次元空間構造をMambaに組み込んだ2次元選択的SSMフレームワークである2DMambaを提案する。
我々は、WSIと自然画像の両方に対して、アプローチの汎用性を検証する。
WSI分類とサバイバル分析のための10の公開データセットに関する大規模な実験によると、2DMamba~improveds up $2.48\%$ in AUC, $3.11\%$ in F1 score, $2.47\%$ in accuracy, 5,52\%$ in C-indexである。
さらに、自然画像のためのVMambaと統合することで、ADE20kセマンティックセグメンテーションデータセットでmIoUが0.5ドルから0.7ドル、ImageNet-1K分類データセットで0.2\%の精度向上が得られる。
私たちのコードはhttps://github.com/AtlasAnalyticsLab/2DMamba.comから入手可能です。
関連論文リスト
- Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Hi-Mamba: Hierarchical Mamba for Efficient Image Super-Resolution [42.259283231048954]
状態空間モデル(SSM)は、線形複雑性を伴う長距離依存性をモデル化する上で、強力な表現能力を示している。
画像超解像(SR)のための新しい階層型マンバネットワーク、すなわちHi-Mambaを提案する。
論文 参考訳(メタデータ) (2024-10-14T04:15:04Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。