論文の概要: GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.10371v1
- Date: Fri, 13 Dec 2024 18:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:37:49.082016
- Title: GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
- Title(参考訳): GaussianAD:Gaussian-Centric End-to-End autonomous Driving
- Authors: Wenzhao Zheng, Junjie Wu, Yao Zheng, Sicheng Zuo, Zixun Xie, Longchao Yang, Yong Pan, Zhihui Hao, Peng Jia, Xianpeng Lang, Shanghang Zhang,
- Abstract要約: 視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
- 参考スコア(独自算出の注目度): 23.71316979650116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based autonomous driving shows great potential due to its satisfactory performance and low costs. Most existing methods adopt dense representations (e.g., bird's eye view) or sparse representations (e.g., instance boxes) for decision-making, which suffer from the trade-off between comprehensiveness and efficiency. This paper explores a Gaussian-centric end-to-end autonomous driving (GaussianAD) framework and exploits 3D semantic Gaussians to extensively yet sparsely describe the scene. We initialize the scene with uniform 3D Gaussians and use surrounding-view images to progressively refine them to obtain the 3D Gaussian scene representation. We then use sparse convolutions to efficiently perform 3D perception (e.g., 3D detection, semantic map construction). We predict 3D flows for the Gaussians with dynamic semantics and plan the ego trajectory accordingly with an objective of future scene forecasting. Our GaussianAD can be trained in an end-to-end manner with optional perception labels when available. Extensive experiments on the widely used nuScenes dataset verify the effectiveness of our end-to-end GaussianAD on various tasks including motion planning, 3D occupancy prediction, and 4D occupancy forecasting. Code: https://github.com/wzzheng/GaussianAD.
- Abstract(参考訳): 視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの手法では、包括性と効率のトレードオフに苦しむ決定のために、密度の高い表現(例えば、鳥の眼図)やスパース表現(例箱)を採用しています。
本稿では、ガウス中心のエンドツーエンド自動運転(GaussianAD)フレームワークについて検討し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
我々は、均一な3Dガウスのシーンを初期化し、周囲の画像を徐々に洗練して3Dガウスのシーン表現を得る。
次に、スパース畳み込みを用いて3次元知覚(例えば、3次元検出、意味地図構築)を効率的に行う。
動的意味論を用いてガウス人の3次元フローを予測し、将来のシーン予測の目的に応じてエゴ軌道を計画する。
GaussianADは、オプションの認識ラベルを利用できるように、エンドツーエンドでトレーニングできます。
広範に使用されているnuScenesデータセットの大規模な実験は、動作計画、3D占有予測、および4D占有予測を含む様々なタスクにおける、エンドツーエンドのGaussianADの有効性を検証する。
コード:https://github.com/wzzheng/GaussianAD
関連論文リスト
- GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding [44.68350305790145]
GaussTRは3次元空間理解を促進するためにガウス表現を通して基礎モデルアライメントとスパース3次元モデリングを統一する新しいトランスフォーマーフレームワークである。
Occ3D-nuScenesデータセットの実験では、GaussTRの12.27 mIoUの最先端のゼロショット性能と、トレーニング時間の40%削減が示されている。
これらの結果は、スケーラブルで総合的な3次元空間理解のためのGaussTRの有効性を強調し、自律運転とエンボディエージェントに有望な意味を持つ。
論文 参考訳(メタデータ) (2024-12-17T18:59:46Z) - GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction [67.81475355852997]
3次元占有予測は、周囲の包括的認識のため、自動運転にとって重要である。
本研究では、シーンの進化を知覚に利用するための世界モデルに基づくフレームワークを提案する。
我々のフレームワークは、追加の計算を導入することなく、mIoUの単一フレームの性能を2%以上向上させる。
論文 参考訳(メタデータ) (2024-12-13T18:59:54Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - EmbodiedOcc: Embodied 3D Occupancy Prediction for Vision-based Online Scene Understanding [63.99937807085461]
3D占有予測は周囲のシーンを包括的に記述する。
既存のほとんどのメソッドは、1つか数つのビューからのオフラインの認識に焦点を当てている。
具体化された3次元占有予測タスクを定式化し,ガウスをベースとしたEmbodiedOccフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:57:09Z) - GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting [16.480043962212566]
本研究では, ガウススプラッティングとガウススプラッティングの2つの利用法を提案する。
その結果,GussianOcc法では,計算コストの低い競合性能において,完全に自己監督された3次元占有率推定が可能となった。
論文 参考訳(メタデータ) (2024-08-21T09:06:30Z) - $\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving [82.82048452755394]
光リアルなストリートシーンの3D再構成は、現実の自動運転シミュレータを開発する上で重要な技術である。
既存のストリート3DGS法の多くは、静的および動的要素を分解するために、トラックされた3D車両バウンディングボックスを必要とする。
動的および静的な要素を4次元整合性から分解する自己教師付きストリートガウス(textitS3$Gaussian)手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:57:08Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。