論文の概要: GEM: Generating LiDAR World Model via Deformable Mamba
- arxiv url: http://arxiv.org/abs/2605.07326v1
- Date: Fri, 08 May 2026 06:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.859918
- Title: GEM: Generating LiDAR World Model via Deformable Mamba
- Title(参考訳): GEM:変形可能なマンバによるLiDAR世界モデルの生成
- Authors: Yang Wu, Zhaojiang Liu, Qiang Meng, Youquan Liu, Renliang Weng, Jianjun Qian, Jian Yang, Jin Xie,
- Abstract要約: 変形可能なマンバアーキテクチャを持つ世代別LiDARワールドモデルは、忠実度と想像力を向上させる。
実験により、GEMは様々なベンチマークと評価設定で最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 43.63812337974977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models, which simulate environmental dynamics and generate sensor observations, are gaining increasing attention in autonomous driving. However, progress in LiDAR-based world models has lagged behind those built on camera videos or occupancy data, primarily due to two core challenges: the inherent disorder of LiDAR point clouds and the difficulty of distinguishing dynamic objects from static structures. To address these issues, we propose GEM: a Generative LiDAR world model that leverages deformable mamba architecture, significantly improving fidelity and imaginative capability. Specifically, leveraging the structural similarity between sequential laser scanning and Mamba's processing mechanism, we first tokenize LiDAR sweeps into compact representations via a custom LiDAR scene tokenizer. After unsupervised disentanglement of tokenized features via a dynamic-static separator, a tri-path deformable Mamba is introduced to perform selective scanning and adaptive gating fusion over the disentangled features, leading to enhanced spatial-temporal understanding of the world evolution. Optionally, a planner and a BEV layout controller can be integrated to explore the model's capability for autonomous rollout and its potential to generate ``what-if" scenarios. Extensive experiments show that GEM achieves state-of-the-art performances across diverse benchmarks and evaluation settings, demonstrating its superiority and effectiveness. Project page: https://github.com/wuyang98/GEM.
- Abstract(参考訳): 環境力学をシミュレートし、センサー観測を生成する世界モデルは、自動運転において注目を集めている。
しかし、LiDARベースの世界モデルの進歩は、カメラビデオや占有データ上に構築されたモデルに遅れを取っている。
これらの課題に対処するために,変形可能なマンバアーキテクチャを活用し,忠実度と想像能力を大幅に向上させるジェネレーティブLiDAR世界モデルGEMを提案する。
具体的には、シーケンシャルレーザースキャンとマンバの処理機構の類似性を利用して、LiDARスイープをカスタムのLiDARシーントークン化器でコンパクトな表現にトークン化する。
動的静電分離器によるトークン化特徴の非監督的切り離しの後、三経路変形可能なマンバを導入し、この切り離された特徴に対して選択的走査的かつ適応的なゲーティング融合を行い、世界の発展の時空間的理解を深める。
オプションとして、プランナーとBEVレイアウトコントローラを統合して、自律的なロールアウトのモデルの能力と、“What-if”シナリオを生成する可能性を探ることができる。
大規模な実験により、GEMは様々なベンチマークと評価設定で最先端のパフォーマンスを達成し、その優位性と有効性を示している。
プロジェクトページ:https://github.com/wuyang98/GEM。
関連論文リスト
- DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving [47.573692944838115]
DriveMambaは、効率的なE2E-ADのためのタスク中心のスケーラブルパラダイムである。
シーケンシャルなタスク関係モデリング、暗黙の対応学習、長期の時間的融合を単一ステージのUnified Mambaデコーダに統合する。
nuScenesとBench2Driveデータセットで実施された大規模な実験は、DriveMambaの優位性、一般化性、および大幅な効率性を実証している。
論文 参考訳(メタデータ) (2026-02-09T11:48:29Z) - LiSTAR: Ray-Centric World Models for 4D LiDAR Sequences in Autonomous Driving [8.465161411966761]
LiSTARは、センサーのネイティブジオメトリを直接操作する、新しい生成的世界モデルである。
LiSTARはスパース時間データから複雑なダイナミクスをキャプチャする。
4次元LiDAR再構成、予測、条件生成におけるLiSTARの性能を検証する実験。
論文 参考訳(メタデータ) (2025-11-20T05:11:22Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving [5.450011907283289]
本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。
まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。
第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:17:18Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting [53.58528891081709]
都市景観におけるLiDARスキャンをリアルタイムかつ高忠実に再現するLiDAR-GSを提案する。
この手法は,公開可能な大規模シーンデータセットのレンダリングフレームレートと品質の両面において,最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-07T15:07:56Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。