論文の概要: GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.00034v1
- Date: Tue, 27 May 2025 01:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.078037
- Title: GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
- Title(参考訳): GaussianFusion: エンドツーエンド自動運転のためのガウスベースマルチセンサフュージョン
- Authors: Shuai Liu, Quanmin Liang, Zefeng Li, Boyang Li, Kai Huang,
- Abstract要約: 本稿では,エンドツーエンド自動運転のためのガウス式マルチセンサフュージョンフレームワークを提案する。
本手法では,様々なセンサからの情報を集約するために,直観的かつコンパクトなガウス表現を中間キャリアとして利用する。
明示的な特徴は交通シーンに関する豊かな意味と空間情報を捉え、暗黙的な特徴は軌道計画のための補完的な手がかりを提供する。
- 参考スコア(独自算出の注目度): 7.989953129185359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-sensor fusion is crucial for improving the performance and robustness of end-to-end autonomous driving systems. Existing methods predominantly adopt either attention-based flatten fusion or bird's eye view fusion through geometric transformations. However, these approaches often suffer from limited interpretability or dense computational overhead. In this paper, we introduce GaussianFusion, a Gaussian-based multi-sensor fusion framework for end-to-end autonomous driving. Our method employs intuitive and compact Gaussian representations as intermediate carriers to aggregate information from diverse sensors. Specifically, we initialize a set of 2D Gaussians uniformly across the driving scene, where each Gaussian is parameterized by physical attributes and equipped with explicit and implicit features. These Gaussians are progressively refined by integrating multi-modal features. The explicit features capture rich semantic and spatial information about the traffic scene, while the implicit features provide complementary cues beneficial for trajectory planning. To fully exploit rich spatial and semantic information in Gaussians, we design a cascade planning head that iteratively refines trajectory predictions through interactions with Gaussians. Extensive experiments on the NAVSIM and Bench2Drive benchmarks demonstrate the effectiveness and robustness of the proposed GaussianFusion framework. The source code will be released at https://github.com/Say2L/GaussianFusion.
- Abstract(参考訳): エンド・ツー・エンドの自動運転システムの性能と堅牢性を向上させるためには,マルチセンサ・フュージョンが不可欠である。
既存の方法は、主に注意に基づく平らな融合または幾何学的変換による鳥の目視融合を採用する。
しかし、これらの手法は解釈可能性の制限や計算オーバーヘッドの増大に悩まされることが多い。
本稿では,ガウスに基づくエンドツーエンド自動運転のための多センサ融合フレームワークであるガウスフュージョンを紹介する。
本手法では,様々なセンサからの情報を集約するために,直観的かつコンパクトなガウス表現を中間キャリアとして利用する。
具体的には、各ガウスが物理的属性によってパラメータ化され、明示的で暗黙的な特徴を持つ2次元ガウスの集合を運転シーン全体に均一に初期化する。
これらのガウシアンは、マルチモーダルな特徴を統合することで徐々に洗練される。
明示的な特徴は交通シーンに関する豊かな意味と空間情報を捉え、暗黙的な特徴は軌道計画に有用な補完的手がかりを提供する。
ガウスの豊かな空間情報と意味情報を十分に活用するために,ガウスとの相互作用を通じて軌道予測を反復的に洗練するカスケード計画ヘッドを設計する。
NAVSIMとBench2Driveベンチマークの大規模な実験は、提案したGaussianFusionフレームワークの有効性と堅牢性を示している。
ソースコードはhttps://github.com/Say2L/GaussianFusion.comで公開される。
関連論文リスト
- GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention [15.890744831541452]
3Dセマンティック占有予測は、安全で信頼性の高い自動運転を実現するために重要である。
本稿では,3次元変形可能な注意力を利用したマルチモーダルガウスに基づくセマンティック占有予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T20:05:08Z) - ADGaussian: Generalizable Gaussian Splatting for Autonomous Driving with Multi-modal Inputs [32.896888952578806]
本稿では,ADGaussianと呼ばれる新しいアプローチを提案する。
提案手法は,シングルビュー入力による高品質なレンダリングを実現する。
論文 参考訳(メタデータ) (2025-04-01T05:40:23Z) - GS-LIVO: Real-Time LiDAR, Inertial, and Visual Multi-sensor Fused Odometry with Gaussian Mapping [22.432252084121274]
LiDAR-Inertial-Visual (LIV) センサの構成は、ローカライゼーションと高密度マッピングにおいて優れた性能を示している。
本稿では,新しいリアルタイムガウス型同時ローカライズ・マッピングシステムを提案する。
このフレームワークは、堅牢なマルチセンサー融合機能を維持しながら、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T09:04:56Z) - GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occupancy Prediction [55.60972844777044]
3Dセマンティック占有予測は、堅牢な視覚中心の自律運転において重要な課題である。
既存のほとんどの手法は、密度の高いグリッドベースのシーン表現を利用しており、運転シーンの空間的空間性を見渡している。
本稿では,各ガウス分布をその周辺領域の確率分布として解釈する確率論的ガウス重ね合わせモデルを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:59:58Z) - SmileSplat: Generalizable Gaussian Splats for Unconstrained Sparse Images [91.28365943547703]
SmileSplatという新しい一般化可能なガウス格子法が提案され,様々なシナリオに対して画素整列ガウス波を再構成する。
提案手法は,様々な3次元視覚タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-27T05:52:28Z) - PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。
提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文 参考訳(メタデータ) (2024-10-24T17:59:58Z) - Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。
Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-26T19:37:07Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。