論文の概要: Deformable Mamba for Wide Field of View Segmentation
- arxiv url: http://arxiv.org/abs/2411.16481v1
- Date: Mon, 25 Nov 2024 15:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:50.851614
- Title: Deformable Mamba for Wide Field of View Segmentation
- Title(参考訳): 広視野ビューセグメンテーションのための変形可能なマンバ
- Authors: Jie Hu, Junwei Zheng, Jiale Wei, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: 変形可能なマンバ(Deformable Mamba)は、パノラマや魚眼のセマンティックセグメンテーションの文脈における画像歪みに対処するために設計されたフレームワークである。
コアには、デフォルマブル・マンバ・フュージョン(DMF)ブロックで構築されたデコーダがあり、フレームワーク全体がより変形しやすく、効率的で、正確である。
提案手法は, 特定のFoVに適した従来の最先端手法と比較して, セグメンテーション精度を常に向上させる。
- 参考スコア(独自算出の注目度): 27.340067787116297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wide-FoV cameras, like fisheye and panoramic setups, are essential for broader perception but introduce significant distortions in 180{\deg} and 360{\deg} images, complicating dense prediction tasks. For instance, existing MAMBA models lacking distortion-aware capacity cannot perform well in panoramic semantic segmentation. To address this problem, this work presents Deformable Mamba, a unified framework specifically designed to address imaging distortions within the context of panoramic and fisheye semantic segmentation. At the core is a decoder constructed with a series of Deformable Mamba Fusion (DMF) blocks, making the whole framework more deformable, efficient, and accurate, when handling extreme distortions. Extensive evaluations across five datasets demonstrate that our method consistently improves segmentation accuracy compared to the previous state-of-the-art methods tailored for specific FoVs. Notably, Deformable Mamba achieves a +2.5% performance improvement on the 360{\deg} Stanford2D3D dataset, and shows better results across FoVs from 60{\deg} to 360{\deg}.
- Abstract(参考訳): 魚眼やパノラマ撮影のような広FoVカメラは、より広い認識には不可欠であるが、180{\deg} と 360{\deg} の画像にかなりの歪みをもたらし、密度の高い予測タスクを複雑にする。
例えば、歪み認識能力に欠ける既存のMAMBAモデルは、パノラマ的セマンティックセマンティックセグメンテーションではうまく機能しない。
この問題に対処するために、この研究は、パノラマや魚眼のセマンティックセグメンテーションの文脈内での画像歪みに対処するために特別に設計された統合されたフレームワークであるDeformable Mambaを提示する。
コアには、デフォルマブル・マンバ・フュージョン(DMF)ブロックで構築されたデコーダがあり、極端な歪みを扱う際にフレームワーク全体がより変形しやすく、効率的かつ正確である。
5つのデータセットにまたがる広範囲な評価により,本手法は特定のFoVに適した従来の最先端手法と比較して,セグメンテーションの精度を一貫して向上することが示された。
特にDeformable Mambaは、360{\deg} Stanford2D3Dデータセットで+2.5%の性能向上を実現し、60{\deg}から360{\deg}までのFoVでより良い結果を示す。
関連論文リスト
- A Comprehensive Analysis of Mamba for 3D Volumetric Medical Image Segmentation [32.79661488280031]
本研究は,マンバの3次元画像分割機能に関する包括的調査である。
我々は,Mambaのパフォーマンスを,AMOS,TotalSegmentator,BraTSの3つの大規模ベンチマークで評価した。
U-shape MambaベースのネットワークであるUlikeMambaは、U-shape TransformerベースのネットワークであるUlikeTransを一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-25T03:14:31Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - KMM: Key Frame Mask Mamba for Extended Motion Generation [30.90366992148033]
キーフレーム・マスキング・モデリング(Key frame Masking Modeling)は、キーフレーム・マスキング・モデリング(Key frame Masking Modeling)を特徴とする新しいアーキテクチャである。
我々は,従来の最先端手法と比較して,FIDが57%以上,パラメータが70%以上減少し,最先端性能を達成するため,go-toデータセットであるBABELの広範な実験を行った。
論文 参考訳(メタデータ) (2024-11-10T14:41:38Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。
マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。
本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-18T10:48:10Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces [2.023914201416672]
本稿では, コンクリート, アスファルト, 石英表面のひび割れセグメンテーションのためのVision Mambaベースのフレームワークを提案する。
VMambaベースのエンコーダデコーダネットワークは、最大90.6%の低い浮動小数点演算で高解像度の画像入力を処理することができる。
論文 参考訳(メタデータ) (2024-06-24T10:47:45Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Single Frame Semantic Segmentation Using Multi-Modal Spherical Images [0.0]
本稿では,マルチモーダル融合と全方向シーン認識のギャップを埋めるトランスフォーマーを用いたクロスモーダル融合アーキテクチャを提案する。
我々は、極端物体の変形とパノラマ歪みに対処するために歪み認識モジュールを用いる。
我々の技術は、Stanford2D3DS(RGB-HHA)60.60%、Structured3D(RGB-D-N)71.97%、Matterport3D(RGB-D)35.92%という最先端のmIoU性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T08:06:18Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - View-aware Salient Object Detection for 360{\deg} Omnidirectional Image [33.43250302656753]
等角射影(ERP)にオブジェクトレベルの画素ワイドアノテーションを付加した大規模360度ISODデータセットを構築した。
そこで本研究では,SAVT(Sample Adaptive View Transformer)モジュールを用いたビューアウェア・サリエント物体検出手法を提案する。
論文 参考訳(メタデータ) (2022-09-27T07:44:08Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation [26.09267582056609]
大量の高価なピクセル単位のアノテーションは、堅牢なパノラマセグメンテーションモデルの成功に不可欠である。
360度パノラマにおける歪みと画像-特徴分布は、アノテーションに富んだピンホールドメインからの転写を阻害する。
変形性パッチ埋め込み(DPE)および変形性変形性(DMLP)コンポーネントにおける物体変形とパノラマ画像歪みを学習する。
最後に、マルチスケールのプロトタイプ機能を生成することにより、ピンホールとパノラマの特徴埋め込みで共有セマンティクスを結合する。
論文 参考訳(メタデータ) (2022-03-02T23:00:32Z) - MC-Blur: A Comprehensive Benchmark for Image Deblurring [127.6301230023318]
ほとんどの実世界の画像では、ブラーは動きやデフォーカスなど様々な要因によって引き起こされる。
我々は,MC-Blurと呼ばれる大規模マルチライク画像デブロアリングデータセットを新たに構築する。
MC-Blurデータセットに基づいて,異なるシナリオにおけるSOTA法の比較を行う。
論文 参考訳(メタデータ) (2021-12-01T02:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。