論文の概要: ODG: Occupancy Prediction Using Dual Gaussians
- arxiv url: http://arxiv.org/abs/2506.09417v2
- Date: Thu, 12 Jun 2025 13:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 13:18:14.184788
- Title: ODG: Occupancy Prediction Using Dual Gaussians
- Title(参考訳): ODG:デュアルガウスを用いた職業予測
- Authors: Yunxiao Shi, Yinhao Zhu, Shizhong Han, Jisoo Jeong, Amin Ansari, Hong Cai, Fatih Porikli,
- Abstract要約: 活動予測は周囲環境のカメラ画像から微細な3次元形状と意味を推定する。
既存の方法は、シーン表現として高密度グリッドを採用するか、単一のスパースクエリを使用してシーン全体を学習する。
複雑なシーンダイナミクスを効果的に捉えるために,階層的な二重スパースガウス表現であるODGを提案する。
- 参考スコア(独自算出の注目度): 38.9869091446875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Occupancy prediction infers fine-grained 3D geometry and semantics from camera images of the surrounding environment, making it a critical perception task for autonomous driving. Existing methods either adopt dense grids as scene representation, which is difficult to scale to high resolution, or learn the entire scene using a single set of sparse queries, which is insufficient to handle the various object characteristics. In this paper, we present ODG, a hierarchical dual sparse Gaussian representation to effectively capture complex scene dynamics. Building upon the observation that driving scenes can be universally decomposed into static and dynamic counterparts, we define dual Gaussian queries to better model the diverse scene objects. We utilize a hierarchical Gaussian transformer to predict the occupied voxel centers and semantic classes along with the Gaussian parameters. Leveraging the real-time rendering capability of 3D Gaussian Splatting, we also impose rendering supervision with available depth and semantic map annotations injecting pixel-level alignment to boost occupancy learning. Extensive experiments on the Occ3D-nuScenes and Occ3D-Waymo benchmarks demonstrate our proposed method sets new state-of-the-art results while maintaining low inference cost.
- Abstract(参考訳): 運転予測は周囲の環境のカメラ画像から細粒な3次元形状と意味を推定し、自動運転にとって重要な認識課題となる。
既存の手法では,高解像度化が難しいシーン表現として高密度グリッドを採用するか,複数のオブジェクト特性を扱うのに不十分な単一のスパースクエリを用いてシーン全体を学習する。
本稿では,複雑なシーンの動態を効果的に捉えるために,階層的な二重スパースガウス表現であるODGを提案する。
運転シーンを静的および動的に分割できるという観察に基づいて、多種多様なシーンオブジェクトをモデル化するための二重ガウスクエリを定義する。
階層型ガウス変換器を用いて占有されたボクセル中心とセマンティッククラスをガウスパラメータとともに予測する。
また,3次元ガウススプラッティングのリアルタイムレンダリング機能を活用し,画素レベルのアライメントを注入し,占有学習を促進するセマンティックマップアノテーションを付加する。
Occ3D-nuScenes と Occ3D-Waymo のベンチマークによる大規模な実験により,提案手法は推論コストを低く抑えつつ,新しい最先端結果を設定することを示した。
関連論文リスト
- BePo: Leveraging Birds Eye View and Sparse Points for Efficient and Accurate 3D Occupancy Prediction [38.9869091446875]
3D占有力は、シーン理解のためのきめ細かい3D幾何学と意味論を提供する。
バードアイビュー (Bird's Eye View, BEV) またはスパースポイント (sparse points) は、コストを大幅に削減したシーン表現であるが、それでもそれぞれの欠点に悩まされている。
本稿では,BEVとスパースポイントに基づく表現を組み合わせた新しい3次元占有予測手法BePoを提案する。
論文 参考訳(メタデータ) (2025-06-08T05:19:02Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks [28.024042528077125]
Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T15:14:48Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。