論文の概要: RoadMamba: A Dual Branch Visual State Space Model for Road Surface Classification
- arxiv url: http://arxiv.org/abs/2508.01210v1
- Date: Sat, 02 Aug 2025 05:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.758621
- Title: RoadMamba: A Dual Branch Visual State Space Model for Road Surface Classification
- Title(参考訳): RoadMamba: 道路表面分類のための2分岐視覚状態空間モデル
- Authors: Tianze Wang, Zhang Zhang, Chao Yue, Nuoran Li, Chao Sun,
- Abstract要約: Mambaアーキテクチャは視覚処理タスクにおいて顕著なパフォーマンスを示している。
しかし、既存のマンバ建築は最先端の視覚的路面分類を達成するのに苦労している。
そこで我々は,RoadMambaと呼ばれる局所的・グローバル的認識を効果的に組み合わせた手法を提案する。
提案したRoadMambaは,大規模道路表面分類データセットの実験において,最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 7.33243132385824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acquiring the road surface conditions in advance based on visual technologies provides effective information for the planning and control system of autonomous vehicles, thus improving the safety and driving comfort of the vehicles. Recently, the Mamba architecture based on state-space models has shown remarkable performance in visual processing tasks, benefiting from the efficient global receptive field. However, existing Mamba architectures struggle to achieve state-of-the-art visual road surface classification due to their lack of effective extraction of the local texture of the road surface. In this paper, we explore for the first time the potential of visual Mamba architectures for road surface classification task and propose a method that effectively combines local and global perception, called RoadMamba. Specifically, we utilize the Dual State Space Model (DualSSM) to effectively extract the global semantics and local texture of the road surface and decode and fuse the dual features through the Dual Attention Fusion (DAF). In addition, we propose a dual auxiliary loss to explicitly constrain dual branches, preventing the network from relying only on global semantic information from the deep large receptive field and ignoring the local texture. The proposed RoadMamba achieves the state-of-the-art performance in experiments on a large-scale road surface classification dataset containing 1 million samples.
- Abstract(参考訳): 視覚技術に基づく路面条件の事前取得は、自動運転車の計画・制御システムに有効な情報を提供し、車両の安全性と運転の快適性を向上させる。
近年、状態空間モデルに基づくMambaアーキテクチャは、効率的なグローバル受容場から恩恵を受けながら、視覚処理タスクにおいて顕著な性能を示している。
しかし,既存のマンバ建築では,道路表面の局所的なテクスチャを効果的に抽出できないため,最先端の視覚的路面分類の達成に苦慮している。
本稿では,道路表面分類作業における視覚的マンバアーキテクチャの可能性について初めて検討し,ローカルとグローバルの認識を効果的に組み合わせた手法であるRoadMambaを提案する。
具体的には、Dual State Space Model(DualSSM)を用いて、道路表面のグローバルな意味と局所的なテクスチャを効果的に抽出し、Dual Attention Fusion(DAF)を通して二重特徴を復号し、融合させる。
さらに、二分枝を明示的に制約する二重補助損失を提案し、深層受容領域からのグローバルな意味情報のみに依存せず、局所的なテクスチャを無視する。
提案したRoadMambaは,100万のサンプルを含む大規模道路表面分類データセットの実験において,最先端の性能を達成する。
関連論文リスト
- Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - RoadFormer : Local-Global Feature Fusion for Road Surface Classification in Autonomous Driving [7.3210301283888315]
路面タイプ(RSC)の分類は, 路面の粗さ, 湿潤, 乾燥条件, 材料情報を明らかにするために, 舗装の特徴を活用することを目的としている。
自動運転では、正確なRCCにより、車両は道路環境をよりよく理解し、運転戦略を調整し、安全で効率的な運転体験を確保することができる。
本稿では,局所的かつグローバルな特徴情報を,畳み込みモジュールと変圧器モジュールの積み重ねを通じて融合する,自律運転シナリオのための視覚ベースきめ細かなRCC法を提案する。
論文 参考訳(メタデータ) (2025-06-03T01:23:19Z) - PillarMamba: Learning Local-Global Context for Roadside Point Cloud via Hybrid State Space Model [6.919896038096772]
柱型路面点雲知覚にマンバを導入する。
我々は、PillarMambaと呼ばれるクロスステージステートスペースグループ(CSG)に基づくフレームワークを提案する。
提案手法は,大規模道路側ベンチマークであるDAIR-V2X-Iにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-05-08T16:33:04Z) - TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - Neural Semantic Map-Learning for Autonomous Vehicles [85.8425492858912]
本稿では,道路環境のコヒーレントな地図を作成するために,車両群から収集した局所部分写像を中心インスタンスに融合するマッピングシステムを提案する。
本手法は,シーン特異的なニューラルサイン距離場を用いて,雑音と不完全局所部分写像を併用する。
我々は,記憶効率の高いスパース機能グリッドを活用して大規模にスケールし,シーン再構築における不確実性をモデル化するための信頼スコアを導入する。
論文 参考訳(メタデータ) (2024-10-10T10:10:03Z) - MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Dynamic loss balancing and sequential enhancement for road-safety
assessment and traffic scene classification [0.0]
道路安全検査は、道路インフラに寄与する道路事故死者を減らすのに欠かせない手段である。
最近の研究は、道路安全属性としても知られる、慎重に選択されたリスク要因の観点から、道路安全評価を形式化している。
本稿では,2段階のニューラルネットワークによる認識を自動化することにより,退屈な人的労働への依存を減らすことを提案する。
論文 参考訳(メタデータ) (2022-11-08T11:10:07Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。