論文の概要: H3O: Hyper-Efficient 3D Occupancy Prediction with Heterogeneous Supervision
- arxiv url: http://arxiv.org/abs/2503.04059v1
- Date: Thu, 06 Mar 2025 03:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:43.315056
- Title: H3O: Hyper-Efficient 3D Occupancy Prediction with Heterogeneous Supervision
- Title(参考訳): H3O:ヘテロジニアス・スーパービジョンを用いた高効率3次元作業予測
- Authors: Yunxiao Shi, Hong Cai, Amin Ansari, Fatih Porikli,
- Abstract要約: 本稿では3次元占有予測手法であるH3Oを提案する。H3Oは高効率なアーキテクチャ設計を特徴とし,現在の最先端手法と比較して計算コストを大幅に削減する。
特に, マルチカメラ深度推定, セマンティックセグメンテーション, および表面正規推定を, 対応する2次元ラベルで教師する可変ボリュームレンダリングにより統合する。
- 参考スコア(独自算出の注目度): 41.529084775662355
- License:
- Abstract: 3D occupancy prediction has recently emerged as a new paradigm for holistic 3D scene understanding and provides valuable information for downstream planning in autonomous driving. Most existing methods, however, are computationally expensive, requiring costly attention-based 2D-3D transformation and 3D feature processing. In this paper, we present a novel 3D occupancy prediction approach, H3O, which features highly efficient architecture designs that incur a significantly lower computational cost as compared to the current state-of-the-art methods. In addition, to compensate for the ambiguity in ground-truth 3D occupancy labels, we advocate leveraging auxiliary tasks to complement the direct 3D supervision. In particular, we integrate multi-camera depth estimation, semantic segmentation, and surface normal estimation via differentiable volume rendering, supervised by corresponding 2D labels that introduces rich and heterogeneous supervision signals. We conduct extensive experiments on the Occ3D-nuScenes and SemanticKITTI benchmarks that demonstrate the superiority of our proposed H3O.
- Abstract(参考訳): 3D占有率予測は、最近、総合的な3Dシーン理解のための新しいパラダイムとして登場し、自動運転における下流計画に有用な情報を提供している。
しかし、既存の手法の多くは計算コストが高く、注意力に基づく2D-3D変換と3D特徴処理を必要とする。
本稿では,3次元占有予測手法であるH3Oを提案する。H3Oは高効率なアーキテクチャ設計を特徴とし,現在の最先端手法と比較して計算コストを大幅に削減する。
さらに, 地中3Dラベルのあいまいさを補うために, 補助的タスクを活用して, 直接3D監督を補完することを提唱する。
特に,マルチカメラ深度推定,セマンティックセグメンテーション,および表面正規化を,リッチで異種な監視信号を導入した対応する2Dラベルで教師する。
我々は,提案したH3Oの優位性を示すOcc3D-nuScenesとSemanticKITTIベンチマークについて広範な実験を行った。
関連論文リスト
- Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - AdaOcc: Adaptive-Resolution Occupancy Prediction [20.0994984349065]
AdaOccは適応分解能でマルチモーダルな予測手法である。
提案手法は,オブジェクト中心の3次元再構成と全体的占有予測を一つのフレームワークに統合する。
近距離シナリオでは、以前のベースラインを13%以上、ハウスドルフ距離を40%以上上回る。
論文 参考訳(メタデータ) (2024-08-24T03:46:25Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - A Spatiotemporal Approach to Tri-Perspective Representation for 3D Semantic Occupancy Prediction [6.527178779672975]
視覚に基づく3Dセマンティック占有予測は、LiDARベースのアプローチを好んで、ますます見落としている。
本研究では、時間的コヒーレントな3Dセマンティック占有度を予測するために設計されたトランスフォーマーアーキテクチャであるS2TPVFormerを紹介する。
論文 参考訳(メタデータ) (2024-01-24T20:06:59Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。