論文の概要: SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2412.11890v1
- Date: Mon, 16 Dec 2024 15:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:41.511047
- Title: SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation
- Title(参考訳): SegMAN: 状態空間モデルによるOmniスケールコンテキストモデリングとセマンティックセグメンテーションのための局所的注意
- Authors: Yunxiang Fu, Meng Lou, Yizhou Yu,
- Abstract要約: 高品質なセマンティックセグメンテーションは,グローバルコンテキストモデリング,ローカルディテールエンコーディング,マルチスケール機能抽出という,3つの重要な機能に依存している。
SegMANと呼ばれるハイブリッド機能エンコーダと状態空間モデルに基づくデコーダを組み合わせた新しい線形時間モデルであるSegMANを紹介する。
ADE20K、Cityscapes、COCO-Stuffの3つの挑戦的なデータセットでSegMANを総合的に評価する。
- 参考スコア(独自算出の注目度): 45.68176825375723
- License:
- Abstract: High-quality semantic segmentation relies on three key capabilities: global context modeling, local detail encoding, and multi-scale feature extraction. However, recent methods struggle to possess all these capabilities simultaneously. Hence, we aim to empower segmentation networks to simultaneously carry out efficient global context modeling, high-quality local detail encoding, and rich multi-scale feature representation for varying input resolutions. In this paper, we introduce SegMAN, a novel linear-time model comprising a hybrid feature encoder dubbed SegMAN Encoder, and a decoder based on state space models. Specifically, the SegMAN Encoder synergistically integrates sliding local attention with dynamic state space models, enabling highly efficient global context modeling while preserving fine-grained local details. Meanwhile, the MMSCopE module in our decoder enhances multi-scale context feature extraction and adaptively scales with the input resolution. We comprehensively evaluate SegMAN on three challenging datasets: ADE20K, Cityscapes, and COCO-Stuff. For instance, SegMAN-B achieves 52.6% mIoU on ADE20K, outperforming SegNeXt-L by 1.6% mIoU while reducing computational complexity by over 15% GFLOPs. On Cityscapes, SegMAN-B attains 83.8% mIoU, surpassing SegFormer-B3 by 2.1% mIoU with approximately half the GFLOPs. Similarly, SegMAN-B improves upon VWFormer-B3 by 1.6% mIoU with lower GFLOPs on the COCO-Stuff dataset. Our code is available at https://github.com/yunxiangfu2001/SegMAN.
- Abstract(参考訳): 高品質なセマンティックセグメンテーションは,グローバルコンテキストモデリング,ローカルディテールエンコーディング,マルチスケール機能抽出という,3つの重要な機能に依存している。
しかし、最近の手法はこれらすべての機能を同時に持つのに苦労している。
したがって、セグメント化ネットワークは、効率的なグローバルコンテキストモデリング、高品質なローカルディテールエンコーディング、および多様な入力解像度のためのリッチなマルチスケール特徴表現を同時に実施することを目指している。
本稿では、SegMANエンコーダと呼ばれるハイブリッド機能エンコーダと、状態空間モデルに基づくデコーダからなる新しい線形時間モデルであるSegMANを紹介する。
具体的には、SegMAN Encoderは局所的な注意を動的状態空間モデルと相乗的に統合し、きめ細かい局所的な詳細を保存しながら、高度に効率的なグローバルなコンテキストモデリングを可能にする。
一方、デコーダのMMSCopEモジュールは、マルチスケールのコンテキスト特徴抽出を強化し、入力解像度で適応的にスケールする。
ADE20K、Cityscapes、COCO-Stuffの3つの挑戦的なデータセットでSegMANを総合的に評価する。
例えば、SegMAN-BはADE20K上で52.6% mIoUを達成し、SegNeXt-Lを1.6% mIoUで上回り、計算複雑性を15%以上削減した。
都市景観では、SegMAN-Bは83.8% mIoUに達し、SegFormer-B3を2.1%上回り、GFLOPの約半分を占める。
同様に、SegMAN-B は VWFormer-B3 を 1.6% mIoU で改善し、COCO-Stuff データセットでは GFLOP が低い。
私たちのコードはhttps://github.com/yunxiangfu2001/SegMAN.comで公開されています。
関連論文リスト
- SCALAR-NeRF: SCAlable LARge-scale Neural Radiance Fields for Scene
Reconstruction [66.69049158826677]
本稿では,スケーラブルな大規模ニューラルシーン再構築に適した新しいフレームワークであるSCALAR-NeRFを紹介する。
ニューラル表現をエンコーダ・デコーダアーキテクチャとして構成し、そこではエンコーダが3次元点座標を処理してエンコーダ化された特徴を生成する。
そこで本研究では,これらの局所モデルから出力を抽出し,最終的な再構築を実現するための効率的かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T10:18:16Z) - MALUNet: A Multi-Attention and Light-weight UNet for Skin Lesion
Segmentation [13.456935850832565]
そこで本研究では,皮膚病変のセグメンテーションにおいて,パラメータと計算複雑性の最小コストで競合性能を実現する軽量モデルを提案する。
我々は、4つのモジュールをU字型アーキテクチャと組み合わせ、MALUNetと呼ばれる軽量な医用画像分割モデルを得る。
UNetと比較して、我々のモデルはmIoUとDSCのメトリクスをそれぞれ2.39%、1.49%改善し、パラメータ数と計算複雑性の44倍と166倍削減した。
論文 参考訳(メタデータ) (2022-11-03T13:19:22Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - An Efficient Multi-Scale Fusion Network for 3D Organ at Risk (OAR)
Segmentation [2.6770199357488242]
我々はOARFocalFuseNetと呼ばれる新しいOARセグメンテーションフレームワークを提案する。
マルチスケールの特徴を融合させ、複数のスケールにわたるグローバルローカルコンテキストのキャプチャに焦点変調を用いる。
OARFocalFuseNetはOpenKBPデータセット上で0.7995のダイス係数と5.1435のハウスドルフ距離を得た。
論文 参考訳(メタデータ) (2022-08-15T19:40:18Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - SegFormer: Simple and Efficient Design for Semantic Segmentation with
Transformers [79.646577541655]
我々は,トランスフォーマーを軽量多層認識(MLP)デコーダと統合するセマンティックセグメンテーションフレームワークであるSegFormerを提案する。
SegFormerは、マルチスケール機能を出力する、新しく構造化されたエンコーダで構成されている。
提案するデコーダは,異なるレイヤからの情報を集約し,局所的な注意とグローバルな注意の両方を強力な表現に結合する。
論文 参考訳(メタデータ) (2021-05-31T17:59:51Z) - Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文 参考訳(メタデータ) (2020-12-14T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。