論文の概要: RayMamba: Ray-Aligned Serialization for Long-Range 3D Object Detection
- arxiv url: http://arxiv.org/abs/2604.02903v1
- Date: Fri, 03 Apr 2026 09:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.424567
- Title: RayMamba: Ray-Aligned Serialization for Long-Range 3D Object Detection
- Title(参考訳): RayMamba:Long-Range 3Dオブジェクト検出のためのレイアライズされたシリアライズ
- Authors: Cheng Lu, Mingqian Ji, Shanshan Zhang, Zhihao Li, Jian Yang,
- Abstract要約: RayMambaは、ボクセルベースの3D検出器のための幾何学的なプラグ・アンド・プレイ・エンハンスメントである。
スパースボクセルを、レイアラインのシリアライズ戦略によってセクター的に順序付けられたシーケンスに整理する。
これはLiDARのみの検出器とマルチモーダル検出器の両方と互換性があり、わずかなオーバーヘッドしか導入していない。
- 参考スコア(独自算出の注目度): 22.69508399616915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-range 3D object detection remains challenging because LiDAR observations become highly sparse and fragmented in the far field, making reliable context modeling difficult for existing detectors. To address this issue, recent state space model (SSM)-based methods have improved long-range modeling efficiency. However, their effectiveness is still limited by generic serialization strategies that fail to preserve meaningful contextual neighborhoods in sparse scenes. To address this issue, we propose RayMamba, a geometry-aware plug-and-play enhancement for voxel-based 3D detectors. RayMamba organizes sparse voxels into sector-wise ordered sequences through a ray-aligned serialization strategy, which preserves directional continuity and occlusion-related context for subsequent Mamba-based modeling. It is compatible with both LiDAR-only and multimodal detectors, while introducing only modest overhead. Extensive experiments on nuScenes and Argoverse 2 demonstrate consistent improvements across strong baselines. In particular, RayMamba achieves up to 2.49 mAP and 1.59 NDS gain in the challenging 40--50 m range on nuScenes, and further improves VoxelNeXt on Argoverse 2 from 30.3 to 31.2 mAP.
- Abstract(参考訳): 長距離3D物体検出は、LiDAR観測が遠方界で高度にスパース化・断片化され、既存の検出器では信頼性の高いコンテキストモデリングが難しいため、依然として困難である。
この問題に対処するため、最近の状態空間モデル(SSM)に基づく手法により、長距離モデリング効率が向上した。
しかし、それらの効果は、スパースシーンにおいて意味のある文脈的近傍を保存できない汎用的なシリアライズ戦略によって制限されている。
この問題に対処するため,ボクセル型3D検出器の形状認識型プラグ・アンド・プレイ・エンハンスメントであるRayMambaを提案する。
レイ・マンバはスパルス・ボクセルをレイアライズ・シリアライズ・ストラテジー(英語版)を通じてセクター的に順序づけられたシーケンスに整理する。
これはLiDARのみの検出器とマルチモーダル検出器の両方と互換性があり、わずかなオーバーヘッドしか導入していない。
nuScenesとArgoverse 2の大規模な実験は、強いベースラインをまたいだ一貫した改善を示している。
特に、RayMamba は nuScenes 上の 40-50 m の範囲で 2.49 mAP と 1.59 NDS を達成し、Argoverse 2 上の VoxelNeXt をさらに 30.3 から 31.2 mAP に改善した。
関連論文リスト
- CCF: Complementary Collaborative Fusion for Domain Generalized Multi-Modal 3D Object Detection [10.131066023908023]
マルチモーダル融合は正確な3次元物体検出のための有望なパラダイムとして登場してきた。
しかし、トレーニングとは異なるターゲットドメインにデプロイされた場合、パフォーマンスは大幅に低下する。
本研究では、堅牢なクロスドメイン一般化を制限する2つの要因を同定する。
これらの課題に対処するための3つのコンポーネントを提案する。
論文 参考訳(メタデータ) (2026-03-24T14:39:51Z) - CrossRay3D: Geometry and Distribution Guidance for Efficient Multimodal 3D Detection [26.74744817946484]
クロスモダリティ検出器は、Bird's-Eye-View(BEV)検出器よりも多くの利点を提供している。
既存のスパース検出器はトークン表現の質を見落とし、準最適品質と限られた性能を残している。
本稿では,形状構造とクラス分布がスパース検出器の性能向上の鍵であることを示す。
論文 参考訳(メタデータ) (2025-10-14T02:11:16Z) - UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection [53.785766442201094]
LiDAR 3D検出の最近の進歩は、ポイントクラウド空間からグローバルな依存関係をキャプチャするTransformerベースのフレームワークの有効性を示している。
トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。
2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発されて、我々は新しい統一マンバ(UniMamba)を提案する。
特に、UniMambaブロックは、主にローカリティモデリング、Zオーダーシリアライゼーション、局所グローバルシーケンシャルアグリゲータで構成されている。
論文 参考訳(メタデータ) (2025-03-15T06:22:31Z) - Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection [59.34834815090167]
3Dボクセルをシリアライズして複数のシーケンスにグループ化し、トランスフォーマーに入力するシリアライズベースの手法は、3Dオブジェクト検出においてその効果を実証している。
グループフリー戦略を用いて、ボクセルの全空間を1つのシーケンスにシリアライズするVoxel SSMを提案する。
論文 参考訳(メタデータ) (2024-06-15T17:45:07Z) - Far3D: Expanding the Horizon for Surround-view 3D Object Detection [15.045811199986924]
本稿では、Far3Dと呼ばれるスパースクエリベースの新しいフレームワークを提案する。
高品質な2Dオブジェクトの事前利用により、3Dグローバルクエリを補完する3D適応クエリを生成する。
課題であるArgoverse 2データセット上でのSoTA性能を実証し,150mの範囲をカバーした。
論文 参考訳(メタデータ) (2023-08-18T15:19:17Z) - Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。
完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。
本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文 参考訳(メタデータ) (2023-04-24T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。