論文の概要: MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2512.24243v1
- Date: Tue, 30 Dec 2025 14:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.393882
- Title: MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation
- Title(参考訳): MambaSeg: 正確で効率的な画像イベントセマンティックセマンティックセグメンテーションのためのハーネスングMamba
- Authors: Fuqiang Gu, Yuanke Li, Xianlei Long, Kangping Ji, Chao Chen, Qingyi Gu, Zhenliang Ni,
- Abstract要約: 我々は,並列なMambaエンコーダを用いてRGB画像とイベントストリームを効率的にモデル化する,新しいデュアルブランチセマンティックセマンティックセマンティクスフレームワークであるMambaSegを提案する。
MambaSegは、最先端のセグメンテーション性能を達成し、計算コストを大幅に削減し、効率的でスケーラブルで堅牢なマルチモーダル知覚に対する約束を示す。
- 参考スコア(独自算出の注目度): 17.515348703686232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation is a fundamental task in computer vision with wide-ranging applications, including autonomous driving and robotics. While RGB-based methods have achieved strong performance with CNNs and Transformers, their effectiveness degrades under fast motion, low-light, or high dynamic range conditions due to limitations of frame cameras. Event cameras offer complementary advantages such as high temporal resolution and low latency, yet lack color and texture, making them insufficient on their own. To address this, recent research has explored multimodal fusion of RGB and event data; however, many existing approaches are computationally expensive and focus primarily on spatial fusion, neglecting the temporal dynamics inherent in event streams. In this work, we propose MambaSeg, a novel dual-branch semantic segmentation framework that employs parallel Mamba encoders to efficiently model RGB images and event streams. To reduce cross-modal ambiguity, we introduce the Dual-Dimensional Interaction Module (DDIM), comprising a Cross-Spatial Interaction Module (CSIM) and a Cross-Temporal Interaction Module (CTIM), which jointly perform fine-grained fusion along both spatial and temporal dimensions. This design improves cross-modal alignment, reduces ambiguity, and leverages the complementary properties of each modality. Extensive experiments on the DDD17 and DSEC datasets demonstrate that MambaSeg achieves state-of-the-art segmentation performance while significantly reducing computational cost, showcasing its promise for efficient, scalable, and robust multimodal perception.
- Abstract(参考訳): セマンティックセグメンテーション(Semantic segmentation)は、自律運転やロボット工学を含む幅広い応用でコンピュータビジョンの基本的なタスクである。
RGB ベースの手法は CNN や Transformer で高い性能を実現しているが、フレームカメラの限界により、高速動作、低照度、高ダイナミックレンジ条件下での有効性は低下している。
イベントカメラは、高時間分解能や低レイテンシといった補完的な利点を提供するが、色やテクスチャが欠けているため、それ自体では不十分である。
この問題に対処するために、最近の研究では、RGBとイベントデータのマルチモーダル融合について検討されているが、既存の多くのアプローチは計算コストが高く、主に空間融合に焦点を当てており、イベントストリームに固有の時間的ダイナミクスを無視している。
本研究では、並列なMambaエンコーダを用いてRGB画像とイベントストリームを効率的にモデル化する、新しいデュアルブランチセマンティックセマンティックセマンティクスフレームワークであるMambaSegを提案する。
空間的・時間的両面の微細な融合を共同で行うCSIM(Cross-Spatial Interaction Module)とCTIM(Cross-Temporal Interaction Module)から構成されるDDIM(Dual-dimensional Interaction Module)を導入する。
この設計は、クロスモーダルアライメントを改善し、あいまいさを低減し、各モーダルの相補的性質を活用する。
DDD17とDSECデータセットに関する大規模な実験は、MambaSegが最先端のセグメンテーションのパフォーマンスを達成しつつ、計算コストを大幅に削減し、効率的でスケーラブルで堅牢なマルチモーダル認識に対する約束を実証していることを示している。
関連論文リスト
- TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。
MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文 参考訳(メタデータ) (2025-12-12T11:55:16Z) - DiffPixelFormer: Differential Pixel-Aware Transformer for RGB-D Indoor Scene Segmentation [17.57232095324351]
RGB-D屋内シーンセグメンテーションのための差動画素対応変換器DiffPixelFormerを提案する。
イントラインターモーダル・インタラクション・ブロック(IIMIB)は、イントラモードの長距離依存関係をキャプチャする。
SUN RGB-D と NYUDv2 ベンチマークの実験では、DiffPixelFormer-L は 54.28% と 59.95% に達し、それぞれ DFormer-L を 1.78% と 2.75% で上回った。
論文 参考訳(メタデータ) (2025-11-17T06:51:07Z) - LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection [31.453313049462718]
RGB-D Salient Object Detection (SOD) は、奥行きの手がかりを取り入れたシーンにおいて、最も顕著な物体を特定することを目的としている。
既存の手法は主にCNNに依存しており、局所的な受容場や2次複雑さのコストに悩まされる視覚変換器に制限されている。
本稿では,2つの新しい成分を含む局所強調・適応核融合状態空間モデル(LEAF-Mamba)を提案する。
論文 参考訳(メタデータ) (2025-09-23T06:08:17Z) - Beyond conventional vision: RGB-event fusion for robust object detection in dynamic traffic scenarios [23.41380544271609]
従来のRGBカメラのダイナミックレンジは、大域的なコントラストを減少させ、高周波の詳細が失われる。
そこで本研究では,光の難易度を最適化した移動キュー融合ネットワーク(MCFNet)を提案する。
MCFNetは、様々な低照度および高速移動トラフィックシナリオにおいて、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-08-14T14:48:21Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。