論文の概要: Deformable Mamba for Wide Field of View Segmentation
- arxiv url: http://arxiv.org/abs/2411.16481v1
- Date: Mon, 25 Nov 2024 15:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:14.979068
- Title: Deformable Mamba for Wide Field of View Segmentation
- Title(参考訳): 広視野ビューセグメンテーションのための変形可能なマンバ
- Authors: Jie Hu, Junwei Zheng, Jiale Wei, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: 変形可能なマンバ(Deformable Mamba)は、パノラマや魚眼のセマンティックセグメンテーションの文脈における画像歪みに対処するために設計されたフレームワークである。
コアには、デフォルマブル・マンバ・フュージョン(DMF)ブロックで構築されたデコーダがあり、フレームワーク全体がより変形しやすく、効率的で、正確である。
提案手法は, 特定のFoVに適した従来の最先端手法と比較して, セグメンテーション精度を常に向上させる。
- 参考スコア(独自算出の注目度): 27.340067787116297
- License:
- Abstract: Wide-FoV cameras, like fisheye and panoramic setups, are essential for broader perception but introduce significant distortions in 180{\deg} and 360{\deg} images, complicating dense prediction tasks. For instance, existing MAMBA models lacking distortion-aware capacity cannot perform well in panoramic semantic segmentation. To address this problem, this work presents Deformable Mamba, a unified framework specifically designed to address imaging distortions within the context of panoramic and fisheye semantic segmentation. At the core is a decoder constructed with a series of Deformable Mamba Fusion (DMF) blocks, making the whole framework more deformable, efficient, and accurate, when handling extreme distortions. Extensive evaluations across five datasets demonstrate that our method consistently improves segmentation accuracy compared to the previous state-of-the-art methods tailored for specific FoVs. Notably, Deformable Mamba achieves a +2.5% performance improvement on the 360{\deg} Stanford2D3D dataset, and shows better results across FoVs from 60{\deg} to 360{\deg}.
- Abstract(参考訳): 魚眼やパノラマ撮影のような広FoVカメラは、より広い認識には不可欠であるが、180{\deg} と 360{\deg} の画像にかなりの歪みをもたらし、密度の高い予測タスクを複雑にする。
例えば、歪み認識能力に欠ける既存のMAMBAモデルは、パノラマ的セマンティックセマンティックセグメンテーションではうまく機能しない。
この問題に対処するために、この研究は、パノラマや魚眼のセマンティックセグメンテーションの文脈内での画像歪みに対処するために特別に設計された統合されたフレームワークであるDeformable Mambaを提示する。
コアには、デフォルマブル・マンバ・フュージョン(DMF)ブロックで構築されたデコーダがあり、極端な歪みを扱う際にフレームワーク全体がより変形しやすく、効率的かつ正確である。
5つのデータセットにまたがる広範囲な評価により,本手法は特定のFoVに適した従来の最先端手法と比較して,セグメンテーションの精度を一貫して向上することが示された。
特にDeformable Mambaは、360{\deg} Stanford2D3Dデータセットで+2.5%の性能向上を実現し、60{\deg}から360{\deg}までのFoVでより良い結果を示す。
関連論文リスト
- MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。
マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。
本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-18T10:48:10Z) - Revisiting 360 Depth Estimation with PanoGabor: A New Fusion Perspective [89.53522682640337]
本稿では,これらの課題に対処するため,指向性歪みを考慮したGabor Fusionフレームワーク(PGFuse)を提案する。
再帰的歪みに対処するために、線形緯度対応の歪み表現法を設計し、カスタマイズされた歪み対応ガボルフィルタを生成する。
ガボル変換の配向感度を考慮すると、この感度を安定させるために球面勾配制約を導入する。
論文 参考訳(メタデータ) (2024-08-29T02:58:35Z) - GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Single Frame Semantic Segmentation Using Multi-Modal Spherical Images [0.0]
本稿では,マルチモーダル融合と全方向シーン認識のギャップを埋めるトランスフォーマーを用いたクロスモーダル融合アーキテクチャを提案する。
我々は、極端物体の変形とパノラマ歪みに対処するために歪み認識モジュールを用いる。
我々の技術は、Stanford2D3DS(RGB-HHA)60.60%、Structured3D(RGB-D-N)71.97%、Matterport3D(RGB-D)35.92%という最先端のmIoU性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T08:06:18Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - View-aware Salient Object Detection for 360{\deg} Omnidirectional Image [33.43250302656753]
等角射影(ERP)にオブジェクトレベルの画素ワイドアノテーションを付加した大規模360度ISODデータセットを構築した。
そこで本研究では,SAVT(Sample Adaptive View Transformer)モジュールを用いたビューアウェア・サリエント物体検出手法を提案する。
論文 参考訳(メタデータ) (2022-09-27T07:44:08Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation [26.09267582056609]
大量の高価なピクセル単位のアノテーションは、堅牢なパノラマセグメンテーションモデルの成功に不可欠である。
360度パノラマにおける歪みと画像-特徴分布は、アノテーションに富んだピンホールドメインからの転写を阻害する。
変形性パッチ埋め込み(DPE)および変形性変形性(DMLP)コンポーネントにおける物体変形とパノラマ画像歪みを学習する。
最後に、マルチスケールのプロトタイプ機能を生成することにより、ピンホールとパノラマの特徴埋め込みで共有セマンティクスを結合する。
論文 参考訳(メタデータ) (2022-03-02T23:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。