論文の概要: ODG: Occupancy Prediction Using Dual Gaussians
- arxiv url: http://arxiv.org/abs/2506.09417v1
- Date: Wed, 11 Jun 2025 06:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.548807
- Title: ODG: Occupancy Prediction Using Dual Gaussians
- Title(参考訳): ODG:デュアルガウスを用いた職業予測
- Authors: Yunxiao Shi, Yinhao Zhu, Shizhong Han, Jisoo Jeong, Amin Ansari, Hong Cai, Fatih Porikli,
- Abstract要約: 3D占有力は、シーン理解のためのきめ細かい3D幾何学と意味論を提供する。
バードアイビュー (Bird's Eye View, BEV) またはスパースポイント (sparse points) は、コストを大幅に削減したシーン表現であるが、それでもそれぞれの欠点に悩まされている。
本稿では,BEVとスパースポイントに基づく表現を組み合わせた新しい3次元占有予測手法ODGを提案する。
- 参考スコア(独自算出の注目度): 38.9869091446875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D occupancy provides fine-grained 3D geometry and semantics for scene understanding which is critical for autonomous driving. Most existing methods, however, carry high compute costs, requiring dense 3D feature volume and cross-attention to effectively aggregate information. More recent works have adopted Bird's Eye View (BEV) or sparse points as scene representation with much reduced cost, but still suffer from their respective shortcomings. More concretely, BEV struggles with small objects that often experience significant information loss after being projected to the ground plane. On the other hand, points can flexibly model little objects in 3D, but is inefficient at capturing flat surfaces or large objects. To address these challenges, in this paper, we present a novel 3D occupancy prediction approach, ODG, which combines BEV and sparse points based representations. We propose a dual-branch design: a query-based sparse points branch and a BEV branch. The 3D information learned in the sparse points branch is shared with the BEV stream via cross-attention, which enriches the weakened signals of difficult objects on the BEV plane. The outputs of both branches are finally fused to generate predicted 3D occupancy. We conduct extensive experiments on the Occ3D-nuScenes and Occ3D-Waymo benchmarks that demonstrate the superiority of our proposed ODG. Moreover, ODG also delivers competitive inference speed when compared to the latest efficient approaches.
- Abstract(参考訳): 3D占有力は、自律運転に不可欠なシーン理解のためのきめ細かい3D幾何学と意味論を提供する。
しかし、既存のほとんどの手法は計算コストが高く、情報を効果的に集約するために高密度な3D特徴量と相互注意を必要とする。
近年では、バードアイビュー(BEV)やスパースポイントを、コストを大幅に削減したシーン表現として採用しているが、それでもそれぞれの欠点に悩まされている。
より具体的に言うと、BEVは地上に投射された後、しばしば重大な情報損失を経験する小さな物体と戦っている。
一方、ポイントは3次元の小さな物体を柔軟にモデル化することができるが、平らな表面や大きな物体を捉えるのに非効率である。
本稿では,BEVとスパースポイントに基づく表現を組み合わせた新しい3次元占有予測手法ODGを提案する。
本稿では,クエリベースのスパースポイントブランチとBEVブランチという,二重ブランチ設計を提案する。
スパース・ポイント・ブランチで学習した3D情報は、BEV平面上の困難な物体の弱化信号を増幅するクロスアテンションを介してBEVストリームと共有される。
両方の枝の出力は最終的に融合し、予測された3D占有率を生成する。
我々はOcc3D-nuScenesとOcc3D-Waymoベンチマークの広範な実験を行い、提案したODGの優位性を実証した。
さらにODGは、最新の効率的なアプローチと比較して、競合する推論速度も提供する。
関連論文リスト
- BePo: Leveraging Birds Eye View and Sparse Points for Efficient and Accurate 3D Occupancy Prediction [38.9869091446875]
3D占有力は、シーン理解のためのきめ細かい3D幾何学と意味論を提供する。
バードアイビュー (Bird's Eye View, BEV) またはスパースポイント (sparse points) は、コストを大幅に削減したシーン表現であるが、それでもそれぞれの欠点に悩まされている。
本稿では,BEVとスパースポイントに基づく表現を組み合わせた新しい3次元占有予測手法BePoを提案する。
論文 参考訳(メタデータ) (2025-06-08T05:19:02Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks [28.024042528077125]
Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T15:14:48Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。