論文の概要: ODG: Occupancy Prediction Using Dual Gaussians
- arxiv url: http://arxiv.org/abs/2506.09417v1
- Date: Wed, 11 Jun 2025 06:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.548807
- Title: ODG: Occupancy Prediction Using Dual Gaussians
- Title(参考訳): ODG:デュアルガウスを用いた職業予測
- Authors: Yunxiao Shi, Yinhao Zhu, Shizhong Han, Jisoo Jeong, Amin Ansari, Hong Cai, Fatih Porikli,
- Abstract要約: 3D占有力は、シーン理解のためのきめ細かい3D幾何学と意味論を提供する。
バードアイビュー (Bird's Eye View, BEV) またはスパースポイント (sparse points) は、コストを大幅に削減したシーン表現であるが、それでもそれぞれの欠点に悩まされている。
本稿では,BEVとスパースポイントに基づく表現を組み合わせた新しい3次元占有予測手法ODGを提案する。
- 参考スコア(独自算出の注目度): 38.9869091446875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D occupancy provides fine-grained 3D geometry and semantics for scene understanding which is critical for autonomous driving. Most existing methods, however, carry high compute costs, requiring dense 3D feature volume and cross-attention to effectively aggregate information. More recent works have adopted Bird's Eye View (BEV) or sparse points as scene representation with much reduced cost, but still suffer from their respective shortcomings. More concretely, BEV struggles with small objects that often experience significant information loss after being projected to the ground plane. On the other hand, points can flexibly model little objects in 3D, but is inefficient at capturing flat surfaces or large objects. To address these challenges, in this paper, we present a novel 3D occupancy prediction approach, ODG, which combines BEV and sparse points based representations. We propose a dual-branch design: a query-based sparse points branch and a BEV branch. The 3D information learned in the sparse points branch is shared with the BEV stream via cross-attention, which enriches the weakened signals of difficult objects on the BEV plane. The outputs of both branches are finally fused to generate predicted 3D occupancy. We conduct extensive experiments on the Occ3D-nuScenes and Occ3D-Waymo benchmarks that demonstrate the superiority of our proposed ODG. Moreover, ODG also delivers competitive inference speed when compared to the latest efficient approaches.
- Abstract(参考訳): 3D占有力は、自律運転に不可欠なシーン理解のためのきめ細かい3D幾何学と意味論を提供する。
しかし、既存のほとんどの手法は計算コストが高く、情報を効果的に集約するために高密度な3D特徴量と相互注意を必要とする。
近年では、バードアイビュー(BEV)やスパースポイントを、コストを大幅に削減したシーン表現として採用しているが、それでもそれぞれの欠点に悩まされている。
より具体的に言うと、BEVは地上に投射された後、しばしば重大な情報損失を経験する小さな物体と戦っている。
一方、ポイントは3次元の小さな物体を柔軟にモデル化することができるが、平らな表面や大きな物体を捉えるのに非効率である。
本稿では,BEVとスパースポイントに基づく表現を組み合わせた新しい3次元占有予測手法ODGを提案する。
本稿では,クエリベースのスパースポイントブランチとBEVブランチという,二重ブランチ設計を提案する。
スパース・ポイント・ブランチで学習した3D情報は、BEV平面上の困難な物体の弱化信号を増幅するクロスアテンションを介してBEVストリームと共有される。
両方の枝の出力は最終的に融合し、予測された3D占有率を生成する。
我々はOcc3D-nuScenesとOcc3D-Waymoベンチマークの広範な実験を行い、提案したODGの優位性を実証した。
さらにODGは、最新の効率的なアプローチと比較して、競合する推論速度も提供する。
関連論文リスト
- Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - BePo: Leveraging Birds Eye View and Sparse Points for Efficient and Accurate 3D Occupancy Prediction [38.9869091446875]
3D占有力は、シーン理解のためのきめ細かい3D幾何学と意味論を提供する。
バードアイビュー (Bird's Eye View, BEV) またはスパースポイント (sparse points) は、コストを大幅に削減したシーン表現であるが、それでもそれぞれの欠点に悩まされている。
本稿では,BEVとスパースポイントに基づく表現を組み合わせた新しい3次元占有予測手法BePoを提案する。
論文 参考訳(メタデータ) (2025-06-08T05:19:02Z) - OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View [74.58230239274123]
一般化可能な3次元再構成において視野を拡大するオープンガウス成長法であるOGGSplatを提案する。
我々の重要な洞察は、オープンガウスのセマンティックな属性が、画像外挿の強い先行性を提供するということである。
OGGSplatはまた、スマートフォンカメラから直接撮影される2つのビューイメージを備えた場合、有望なセマンティック・アウェア・シーン再構築機能を示す。
論文 参考訳(メタデータ) (2025-06-05T16:17:18Z) - GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs [33.74118487769923]
GSemSplatは,3次元ガウスに関連付けられた意味表現を,シーンごとの最適化や高密度画像収集,キャリブレーションなしに学習するフレームワークである。
本研究では,2次元空間における領域固有の意味的特徴と文脈認識的意味的特徴を両立させる二重機能アプローチを用いる。
論文 参考訳(メタデータ) (2024-12-22T09:06:58Z) - HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。
また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。
ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文 参考訳(メタデータ) (2024-12-05T03:20:35Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - L3DG: Latent 3D Gaussian Diffusion [74.36431175937285]
L3DGは3次元ガウス拡散定式化による3次元ガウスの3次元モデリングのための最初のアプローチである。
我々は、部屋の大きさのシーンで効率的に操作するために、スパース畳み込みアーキテクチャーを用いている。
3Dガウス表現を利用することで、生成されたシーンを任意の視点からリアルタイムでレンダリングすることができる。
論文 参考訳(メタデータ) (2024-10-17T13:19:32Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks [28.024042528077125]
Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T15:14:48Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。