論文の概要: RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision
- arxiv url: http://arxiv.org/abs/2309.09502v1
- Date: Mon, 18 Sep 2023 06:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:03:29.229981
- Title: RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision
- Title(参考訳): renderocc: 2次元レンダリングを監督するビジョン中心の3d占有率予測
- Authors: Mingjie Pan, Jiaming Liu, Renrui Zhang, Peixiang Huang, Xiaoqi Li, Li
Liu, Shanghang Zhang
- Abstract要約: RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
- 参考スコア(独自算出の注目度): 34.83515832808762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction holds significant promise in the fields of robot
perception and autonomous driving, which quantifies 3D scenes into grid cells
with semantic labels. Recent works mainly utilize complete occupancy labels in
3D voxel space for supervision. However, the expensive annotation process and
sometimes ambiguous labels have severely constrained the usability and
scalability of 3D occupancy models. To address this, we present RenderOcc, a
novel paradigm for training 3D occupancy models only using 2D labels.
Specifically, we extract a NeRF-style 3D volume representation from multi-view
images, and employ volume rendering techniques to establish 2D renderings, thus
enabling direct 3D supervision from 2D semantics and depth labels.
Additionally, we introduce an Auxiliary Ray method to tackle the issue of
sparse viewpoints in autonomous driving scenarios, which leverages sequential
frames to construct comprehensive 2D rendering for each object. To our best
knowledge, RenderOcc is the first attempt to train multi-view 3D occupancy
models only using 2D labels, reducing the dependence on costly 3D occupancy
annotations. Extensive experiments demonstrate that RenderOcc achieves
comparable performance to models fully supervised with 3D labels, underscoring
the significance of this approach in real-world applications.
- Abstract(参考訳): 3D占有率予測は、ロボットの知覚と自律運転の分野で大きな可能性を秘めており、3Dシーンをセマンティックラベル付きグリッドセルに定量化している。
最近の作品は、主に3dボクセル空間の完全な占有ラベルを用いて監督を行っている。
しかし、高価なアノテーションプロセスや曖昧なラベルは、3D占有モデルのユーザビリティとスケーラビリティを厳しく制限している。
そこで本稿では,2dラベルのみを用いて3d占有モデルのトレーニングを行うための新しいパラダイムであるrenderoccを提案する。
具体的には,多視点画像からnerf型3次元ボリューム表現を抽出し,ボリュームレンダリング技術を用いて2次元レンダリングを行い,2次元セマンティクスと奥行きラベルからの直接3次元監視を可能にする。
さらに,逐次フレームを活用し,各対象に対する総合的な2次元レンダリングを構築する自律運転シナリオにおいて,スパース視点の問題に対処する補助レイ法を提案する。
我々の知る限り、RenderOccは2Dラベルだけでマルチビュー3D占有モデルをトレーニングする最初の試みであり、高価な3D占有アノテーションへの依存を減らす。
大規模な実験により、RenderOccは3Dラベルで完全に教師されたモデルに匹敵するパフォーマンスを達成し、現実世界のアプリケーションにおけるこのアプローチの重要性を強調している。
関連論文リスト
- Lift3D: Zero-Shot Lifting of Any 2D Vision Model to 3D [95.14469865815768]
2Dビジョンモデルは、大規模な2D画像データセットによって実現されるセマンティックセグメンテーション、スタイル転送、シーン編集に使用できる。
しかし、シーン編集のような単一の2Dビジョン演算子を3Dに拡張するには、通常、そのタスクに特化した非常に創造的な方法が必要である。
本稿では,いくつかの視覚モデルによって生成された特徴空間の未知のビューを予測するためのLift3Dを提案する。
問題のあるタスクに特化した最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-27T18:13:16Z) - OccFlowNet: Towards Self-supervised Occupancy Estimation via
Differentiable Rendering and Occupancy Flow [0.6577148087211809]
本稿では,2次元ラベルのみを用いたニューラルレイディアンス場(NeRF)による占有率推定手法を提案する。
深度とセマンティックマップの予測や,2次元監視のみに基づく3次元ネットワークのトレーニングには,可変ボリュームレンダリングを用いる。
論文 参考訳(メタデータ) (2024-02-20T08:04:12Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Panoptic NeRF: 3D-to-2D Label Transfer for Panoptic Urban Scene
Segmentation [48.677336052620895]
そこで本研究では,画素ごとの2Dセマンティックスとインスタンスラベルの取得を目的とした,新しい3D-to-2Dラベル転送手法であるPanoptic NeRFを提案する。
3D空間内での推論と2Dラベルへのレンダリングにより、我々の2Dセマンティクスとインスタンスラベルは、設計によって複数ビューに一貫性がある。
論文 参考訳(メタデータ) (2022-03-29T04:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。