論文の概要: NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection
- arxiv url: http://arxiv.org/abs/2402.14464v1
- Date: Thu, 22 Feb 2024 11:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:22:59.949017
- Title: NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection
- Title(参考訳): NeRF-Det++:屋内マルチビュー3D検出のためのセマンティックキューとパースペクティブ・アウェア・ディープス・スーパービジョン
- Authors: Chenxi Huang and Yuenan Hou and Weicai Ye and Di Huang and Xiaoshui
Huang and Binbin Lin and Deng Cai and Wanli Ouyang
- Abstract要約: NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 72.0098999512727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NeRF-Det has achieved impressive performance in indoor multi-view 3D
detection by innovatively utilizing NeRF to enhance representation learning.
Despite its notable performance, we uncover three decisive shortcomings in its
current design, including semantic ambiguity, inappropriate sampling, and
insufficient utilization of depth supervision. To combat the aforementioned
problems, we present three corresponding solutions: 1) Semantic Enhancement. We
project the freely available 3D segmentation annotations onto the 2D plane and
leverage the corresponding 2D semantic maps as the supervision signal,
significantly enhancing the semantic awareness of multi-view detectors. 2)
Perspective-aware Sampling. Instead of employing the uniform sampling strategy,
we put forward the perspective-aware sampling policy that samples densely near
the camera while sparsely in the distance, more effectively collecting the
valuable geometric clues. 3)Ordinal Residual Depth Supervision. As opposed to
directly regressing the depth values that are difficult to optimize, we divide
the depth range of each scene into a fixed number of ordinal bins and
reformulate the depth prediction as the combination of the classification of
depth bins as well as the regression of the residual depth values, thereby
benefiting the depth learning process. The resulting algorithm, NeRF-Det++, has
exhibited appealing performance in the ScanNetV2 and ARKITScenes datasets.
Notably, in ScanNetV2, NeRF-Det++ outperforms the competitive NeRF-Det by +1.9%
in mAP@0.25 and +3.5% in mAP@0.50$. The code will be publicly at
https://github.com/mrsempress/NeRF-Detplusplus.
- Abstract(参考訳): NeRF-Detは、NeRFを革新的に活用して表現学習を強化し、屋内マルチビュー3次元検出において印象的な性能を達成した。
その顕著な性能にもかかわらず、セマンティックなあいまいさ、不適切なサンプリング、深度監視の不十分な利用を含む、現在の設計における3つの決定的な欠点を明らかにした。
上記の問題に対処するため、我々は以下の3つの解決策を提示した。
1) 意味的拡張。
2次元平面上に自由に利用可能な3次元セグメンテーションアノテーションを投影し、対応する2次元セグメンテーションマップを監視信号として活用し、マルチビュー検出器のセグメンテーション認識を著しく向上させる。
2)パースペクティブアウェアサンプリング。
均一なサンプリング戦略を採用する代わりに、遠距離を狭めながらカメラ付近で密集してサンプリングする視点認識サンプリングポリシーを提唱し、より効果的に幾何学的手がかりを収集する。
3)通常残留深度監督。
最適化が難しい深度値を直接後退させるのとは対照的に、各シーンの深さ範囲を一定の数の順序ビンに分割し、深さ予測を深さビンの分類と残留深さ値の回帰の組み合わせとして再構成し、深さ学習プロセスに恩恵を与える。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とARKITScenesデータセットで魅力的なパフォーマンスを示している。
特に ScanNetV2 では、NeRF-Det++ は mAP@0.25 で +1.9%、mAP@0.50$ で +3.5% で競合する NeRF-Det より優れていた。
コードはhttps://github.com/mrsempress/NeRF-Detplusplus.comで公開される。
関連論文リスト
- NeRF-DetS: Enhancing Multi-View 3D Object Detection with Sampling-adaptive Network of Continuous NeRF-based Representation [60.47114985993196]
NeRF-Detは、新しいビュー演算と3D知覚のタスクを統一する。
我々は,新しい3次元知覚ネットワーク構造であるNeRF-DetSを導入する。
NeRF-DetSはScanNetV2データセット上で競合するNeRF-Detより優れている。
論文 参考訳(メタデータ) (2024-04-22T06:59:03Z) - Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D
Object Detection [46.041193889845474]
レイデノジング(Ray Denoising)は、カメラ線に沿って戦略的にサンプリングすることで検出精度を高める革新的な手法である。
Ray Denoisingはプラグイン・アンド・プレイモジュールとして設計されており、DETR方式のマルチビュー3D検出器と互換性がある。
NuScenesデータセット上の最先端のStreamPETR法よりも平均精度(mAP)が1.9%向上した。
論文 参考訳(メタデータ) (2024-02-06T02:17:44Z) - NeRF-Det: Learning Geometry-Aware Volumetric Representation for
Multi-View 3D Object Detection [65.02633277884911]
提案するNeRF-Detは,RGB画像を入力として室内3次元検出を行う新しい手法である。
提案手法は3次元形状を明示的に推定するため, エンドツーエンドでNeRFを用いて3次元検出性能を向上する。
論文 参考訳(メタデータ) (2023-07-27T04:36:16Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。
評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2021-12-10T13:01:06Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。