論文の概要: MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2308.09421v2
- Date: Tue, 26 Sep 2023 06:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 17:25:56.199667
- Title: MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection
- Title(参考訳): MonoNeRD:モノクロ3次元物体検出のためのNeRFライクな表現
- Authors: Junkai Xu, Liang Peng, Haoran Cheng, Hao Li, Wei Qian, Ke Li, Wenxiao
Wang, Deng Cai
- Abstract要約: 我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
- 参考スコア(独自算出の注目度): 31.58403386994297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of monocular 3D detection, it is common practice to utilize
scene geometric clues to enhance the detector's performance. However, many
existing works adopt these clues explicitly such as estimating a depth map and
back-projecting it into 3D space. This explicit methodology induces sparsity in
3D representations due to the increased dimensionality from 2D to 3D, and leads
to substantial information loss, especially for distant and occluded objects.
To alleviate this issue, we propose MonoNeRD, a novel detection framework that
can infer dense 3D geometry and occupancy. Specifically, we model scenes with
Signed Distance Functions (SDF), facilitating the production of dense 3D
representations. We treat these representations as Neural Radiance Fields
(NeRF) and then employ volume rendering to recover RGB images and depth maps.
To the best of our knowledge, this work is the first to introduce volume
rendering for M3D, and demonstrates the potential of implicit reconstruction
for image-based 3D perception. Extensive experiments conducted on the KITTI-3D
benchmark and Waymo Open Dataset demonstrate the effectiveness of MonoNeRD.
Codes are available at https://github.com/cskkxjk/MonoNeRD.
- Abstract(参考訳): 単眼3次元検出の分野では,現場の幾何学的手がかりを用いて検出器の性能を向上させることが一般的である。
しかし、既存の多くの作品では、深度マップの推定や3d空間へのバックプロジェクションなど、これらの手がかりを明示的に採用している。
この明示的な手法は2次元から3次元への次元性の増大により3次元表現の空間性を誘導し、特に遠方および隠蔽物体において、かなりの情報損失をもたらす。
この問題を軽減するために,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々はこれらの表現をNeRF(Neural Radiance Fields)として扱い、ボリュームレンダリングを用いてRGB画像と深度マップを復元する。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
KITTI-3DベンチマークとWaymo Open Datasetで実施された大規模な実験は、MonoNeRDの有効性を示している。
コードはhttps://github.com/cskkxjk/mononerdで入手できる。
関連論文リスト
- VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection [11.061100776969383]
モノクロ3Dオブジェクト検出は3Dシーン理解において重要な課題となる。
既存の手法は、豊富な3Dラベルを用いた教師あり学習に大きく依存している。
本稿では,VSRDという3次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T20:43:55Z) - MinD-3D: Reconstruct High-quality 3D objects in Human Brain [50.534007259536715]
Recon3DMindは、fMRI(Functional Magnetic Resonance Imaging)信号から3次元視覚を再構成するための革新的なタスクである。
このデータセットは14人の参加者のデータを含み、3Dオブジェクトの360度ビデオが特徴である。
我々は,脳の3次元視覚情報をfMRI信号から復号化するための,新規で効果的な3段階フレームワークMinD-3Dを提案する。
論文 参考訳(メタデータ) (2023-12-12T18:21:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Monocular 3D Object Detection with Bounding Box Denoising in 3D by
Perceiver [45.16079927526731]
モノクル3D物体検出の主な課題は、3D中心の正確な位置決めである。
本稿では,2次元から3次元への情報フローと3次元から2次元への情報フローを組み合わせた段階的アプローチを提案する。
提案手法はMonoXiverと命名され, 背骨単分子3D検出器に容易に適用可能である。
論文 参考訳(メタデータ) (2023-04-03T18:24:46Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。