論文の概要: GaussianLSS -- Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2504.01957v1
- Date: Wed, 02 Apr 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:09.300347
- Title: GaussianLSS -- Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting
- Title(参考訳): GaussianLSS -- 現実のBEV知覚に向けて:ガウススティングによる深さ不確かさ推定
- Authors: Shu-Wei Lu, Yi-Hsuan Tsai, Yi-Ting Chen,
- Abstract要約: 鳥眼視(Bird's-eye view, BEV)は、複数のビューイメージを融合させる統一表現を提供するため、注目されている。
近年の最先端モデルでは、BEV知覚をクエリ学習として定式化するプロジェクションベースの手法を用いて、明示的な深さ推定を回避している。
本稿では,非投射型手法を再検討し,深度不確実性モデリングにより拡張する,新しい不確実性を考慮したBEV認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.43661979008945
- License:
- Abstract: Bird's-eye view (BEV) perception has gained significant attention because it provides a unified representation to fuse multiple view images and enables a wide range of down-stream autonomous driving tasks, such as forecasting and planning. Recent state-of-the-art models utilize projection-based methods which formulate BEV perception as query learning to bypass explicit depth estimation. While we observe promising advancements in this paradigm, they still fall short of real-world applications because of the lack of uncertainty modeling and expensive computational requirement. In this work, we introduce GaussianLSS, a novel uncertainty-aware BEV perception framework that revisits unprojection-based methods, specifically the Lift-Splat-Shoot (LSS) paradigm, and enhances them with depth un-certainty modeling. GaussianLSS represents spatial dispersion by learning a soft depth mean and computing the variance of the depth distribution, which implicitly captures object extents. We then transform the depth distribution into 3D Gaussians and rasterize them to construct uncertainty-aware BEV features. We evaluate GaussianLSS on the nuScenes dataset, achieving state-of-the-art performance compared to unprojection-based methods. In particular, it provides significant advantages in speed, running 2.5x faster, and in memory efficiency, using 0.3x less memory compared to projection-based methods, while achieving competitive performance with only a 0.4% IoU difference.
- Abstract(参考訳): 鳥眼視(Bird's-eye view, BEV)は、複数のビューイメージを融合させる統一された表現を提供し、予測や計画など、幅広い下流の自律運転タスクを可能にするため、大きな注目を集めている。
近年の最先端モデルでは、BEV知覚をクエリ学習として定式化するプロジェクションベースの手法を用いて、明示的な深さ推定を回避している。
このパラダイムにおける有望な進歩を観察する一方で、不確実性モデリングの欠如と高価な計算要求のため、現実の応用には依然として不足している。
本稿では,非投射型手法,特にLift-Splat-Shoot(LSS)パラダイムを再検討し,深度不確実性モデリングにより拡張する,新しい不確実性を考慮したBEV知覚フレームワークであるGaussianLSSを紹介する。
ガウスLSSは、軟部深度平均を学習し、被写体の範囲を暗黙的に捉える深度分布の分散を計算することによって空間分散を表す。
次に、深度分布を3Dガウスに変換し、不確実性を認識したBEV機能を構築するようにラスタライズする。
我々はnuScenesデータセット上でGaussianLSSを評価し,非投影型手法と比較して最先端性能を実現する。
特に、速度が2.5倍速く、メモリ効率が0.3倍速く、プロジェクションベースの手法に比べて性能が良いが、競合性能はわずか0.4%のIoU差で達成できる。
関連論文リスト
- LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Binocular-Guided 3D Gaussian Splatting with View Consistency for Sparse View Synthesis [53.702118455883095]
本稿では,ガウススプラッティングを用いたスパースビューから新しいビューを合成する新しい手法を提案する。
私たちのキーとなるアイデアは、両眼画像間の両眼立体的一貫性に固有の自己超越を探索することにあります。
我々の手法は最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-24T15:10:27Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - Uncertainty-guided Optimal Transport in Depth Supervised Sparse-View 3D Gaussian [49.21866794516328]
3次元ガウシアンスプラッティングは、リアルタイムな新規ビュー合成において顕著な性能を示した。
これまでのアプローチでは、3Dガウスの訓練に奥行き監視を取り入れ、オーバーフィッティングを軽減してきた。
本研究では,3次元ガウスの深度分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:18:30Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。