論文の概要: NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization
- arxiv url: http://arxiv.org/abs/2305.17763v1
- Date: Sun, 28 May 2023 16:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 16:45:51.037788
- Title: NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization
- Title(参考訳): NeurOCS: モノクロ3次元物体定位のためのニューラルNOCSスーパービジョン
- Authors: Zhixiang Min, Bingbing Zhuang, Samuel Schulter, Buyu Liu, Enrique
Dunn, Manmohan Chandraker
- Abstract要約: 入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
- 参考スコア(独自算出の注目度): 80.3424839706698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object localization in driving scenes is a crucial task, but
challenging due to its ill-posed nature. Estimating 3D coordinates for each
pixel on the object surface holds great potential as it provides dense 2D-3D
geometric constraints for the underlying PnP problem. However, high-quality
ground truth supervision is not available in driving scenes due to sparsity and
various artifacts of Lidar data, as well as the practical infeasibility of
collecting per-instance CAD models. In this work, we present NeurOCS, a
framework that uses instance masks and 3D boxes as input to learn 3D object
shapes by means of differentiable rendering, which further serves as
supervision for learning dense object coordinates. Our approach rests on
insights in learning a category-level shape prior directly from real driving
scenes, while properly handling single-view ambiguities. Furthermore, we study
and make critical design choices to learn object coordinates more effectively
from an object-centric view. Altogether, our framework leads to new
state-of-the-art in monocular 3D localization that ranks 1st on the
KITTI-Object benchmark among published monocular methods.
- Abstract(参考訳): 運転シーンにおけるモノキュラーな3dオブジェクトのローカライゼーションは重要な課題だが、その不適切な性質のために難しい。
物体表面上の各画素の3d座標の推定は、pnp問題に対して密度の高い2d-3d幾何制約を提供するため、大きなポテンシャルを持つ。
しかし,リダデータの多彩さや多種多様なアーティファクトによる運転シーンや,インスタンスCADモデル収集の実用性などにより,高品質な地上真実監視は利用できない。
本研究では,3次元物体の形状を識別可能なレンダリングにより学習するための入力として,インスタンスマスクと3次元ボックスを用いたNeurOCSを提案する。
私たちのアプローチは、実際の運転シーンから直接、カテゴリレベルの形状を学習する上での洞察にかかっています。
さらに,オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択について検討する。
また,本フレームワークは,KITTI-Objectベンチマークで1位にランクインしたモノキュラー3Dローカライゼーションの新たな最先端化につながる。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - Monocular Differentiable Rendering for Self-Supervised 3D Object
Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。
テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。
本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文 参考訳(メタデータ) (2020-09-30T09:21:43Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。