論文の概要: MambaPanoptic: A Vision Mamba-based Structured State Space Framework for Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2605.12640v2
- Date: Tue, 19 May 2026 14:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 01:01:02.779964
- Title: MambaPanoptic: A Vision Mamba-based Structured State Space Framework for Panoptic Segmentation
- Title(参考訳): MambaPanoptic:Panoptic Segmentationのためのビジョンマンバベースの構造化状態空間フレームワーク
- Authors: Qing Cheng, Damiano Bertolini, Wei Zhang, Dong Wang, Niclas Zeller, Daniel Cremers,
- Abstract要約: MambaPanopticは、完全なMambaベースのパン光学セグメンテーションフレームワークである。
トップダウン機能ピラミッドであるMambaFPNを導入し、Mambaブロックを利用してグローバルに一貫性のあるマルチスケール機能表現を生成する。
Cityscapes と Panoptic segmentation ベンチマークの実験では、MambaPanoptic は PanopticDeepLab と PanopticFCN を一貫して上回っている。
- 参考スコア(独自算出の注目度): 44.88330743454271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoptic segmentation requires the simultaneous recognition of countable thing instances and amorphous stuff regions, placing joint demands on long-range context modelling, multi-scale feature representation, and efficient dense prediction. Existing convolutional and transformer-based methods struggle to satisfy all three requirements concurrently: convolutional architectures are limited in their capacity to model long-range dependencies, while transformer-based methods incur quadratic computational cost that is prohibitive at high resolutions. In this paper, we propose MambaPanoptic, a fully Mamba-based panoptic segmentation framework that addresses these limitations through two principal contributions. First, we introduce MambaFPN, a top-down feature pyramid that leverages Mamba blocks to generate globally coherent, multi-scale feature representations with linear computational complexity. Second, we adopt a PanopticFCN-style kernel generator that produces unified thing and stuff kernels for proposal-free panoptic prediction, enhanced by a QuadMamba-based feature refinement module applied at multiple network stages. Experiments on the Cityscapes and COCO panoptic segmentation benchmarks demonstrate that MambaPanoptic consistently outperforms PanopticDeepLab and PanopticFCN under comparable model sizes, and matches or surpasses Mask2Former on Cityscapes in PQ and AP while requiring fewer parameters.
- Abstract(参考訳): パノプティックセグメンテーションでは、可算物インスタンスとアモルファス物領域を同時に認識し、長距離コンテキストモデリング、マルチスケール特徴表現、効率的な高密度予測に共同要求を配置する必要がある。
畳み込みアーキテクチャは長距離依存をモデル化する能力に制限があるのに対して、トランスフォーマーベースの手法は高解像度で禁止される2次計算コストを発生させる。
本稿では,2つの主要なコントリビューションを通じてこれらの制限に対処する,完全にマンバをベースとしたパン光学セグメンテーションフレームワークであるマンバパノプティクスを提案する。
まず,Mambaブロックを利用するトップダウン機能ピラミッドであるMambaFPNを紹介し,線形計算複雑性を伴うグローバルコヒーレントでマルチスケールな特徴表現を生成する。
第2に,複数のネットワークで適用されたQuadMambaベースの機能改善モジュールによって強化された,統一されたモノとモノのカーネルを生成するPanopticFCNスタイルのカーネルジェネレータを採用する。
CityscapesとCOCOのパン光学セグメンテーションベンチマークの実験では、MambaPanopticはPanopticDeepLabとPanopticFCNを同等のモデルサイズで一貫して上回り、PQとAPのCityscapes上でMask2Formerと一致または上回っている。
関連論文リスト
- MambaBack: Bridging Local Features and Global Contexts in Whole Slide Image Analysis [8.432035888211212]
Whole Slide Image (WSI) 解析は、形態学と建築学を統合したがん診断を可能にする計算病理学において重要な要素である。
マルチインスタンス学習(MIL)は、WSI分析の標準フレームワークとして機能します。
MILアプローチは,(1)1次元配列平坦化中の2次元空間的局所性の破壊,(2)微細な局所細胞構造の最適部分モデリング,(3)推論時の高記憶ピークの3つの重要な課題に直面している。
我々は,MambaとMambaOutの強みを調和させる新しいハイブリッドアーキテクチャであるMambaBackを提案する。
論文 参考訳(メタデータ) (2026-04-17T06:08:37Z) - PanopMamba: Vision State Space Modeling for Nuclei Panoptic Segmentation [20.689908446030856]
PanopMambaは、MambaとTransformerを統合した新しいハイブリッドエンコーダデコーダアーキテクチャである。
私たちの知る限りでは、これはパン光学セグメンテーションのための最初のマンバベースのアプローチである。
画像レベルのPanoptic Quality(i$PQ)、境界重み付きPQ(w$PQ)、周波数重み付きPQ(fw$PQ)などの代替評価指標を導入する。
論文 参考訳(メタデータ) (2026-01-23T10:33:15Z) - PanFoMa: A Lightweight Foundation Model and Benchmark for Pan-Cancer [54.958921946378304]
トランスフォーマーと状態空間モデルの強みを組み合わせた軽量ハイブリッドニューラルネットワークであるPanFoMaを紹介する。
PanFoMaはフロントエンドのローカルコンテキストエンコーダと共有自己認識層から構成され、複雑で秩序に依存しない遺伝子相互作用をキャプチャする。
また,350万以上の高品質な細胞を含む大規模パンキャンサー単細胞ベンチマークPanFoMaBenchを構築した。
論文 参考訳(メタデータ) (2025-12-02T08:31:31Z) - Topo-VM-UNetV2: Encoding Topology into Vision Mamba UNet for Polyp Segmentation [4.856498016044607]
Topo-VMUNetV2を提案する。これはMambaベースのポリプセグメンテーションモデルVMUNetV2にトポロジ的特徴をエンコードする。
提案手法は2つの段階から構成される: VMUNetV2はトレーニングおよびテスト画像の確率マップ(PM)を生成するために使用され、トポロジ注意マップの計算に使用される。
論文 参考訳(メタデータ) (2025-05-09T17:41:13Z) - TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [66.80624029365448]
本稿では,Transformer事前学習知識の再利用を容易にするクロスアーキテクチャな知識伝達パラダイムであるTransMambaを提案する。
本稿では,マンバをベースとしたモデルのトレーニングを高速化する2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - PPMamba: A Pyramid Pooling Local Auxiliary SSM-Based Model for Remote Sensing Image Semantic Segmentation [1.5136939451642137]
本稿では,CNN と Mamba を統合し,セマンティックセグメンテーションタスクを実現する新しいネットワークである Pyramid Pooling Mamba (PPMamba) を提案する。
PPMambaは最先端のモデルに比べて競争力がある。
論文 参考訳(メタデータ) (2024-09-10T08:08:50Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。