論文の概要: Joint stereo 3D object detection and implicit surface reconstruction
- arxiv url: http://arxiv.org/abs/2111.12924v1
- Date: Thu, 25 Nov 2021 05:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 22:10:15.412589
- Title: Joint stereo 3D object detection and implicit surface reconstruction
- Title(参考訳): ステレオ3次元物体検出と暗黙的表面再構成
- Authors: Shichao Li and Kwang-Ting Cheng
- Abstract要約: 本稿では,カテゴリーレベルの3次元オブジェクト検出と暗黙的形状推定のための,野生におけるステレオRGB画像のペアに基づく学習ベースフレームワークを提案する。
従来のステレオ3Dオブジェクト検出アプローチでは、検出された物体は3D境界ボックスのみで、その全表面形状を推測することはできない。
そこで本研究では,S-3D-RCNNの高精度なローカライゼーションと,完全かつ解像度に依存しない形状記述が可能なモデルを提案する。
- 参考スコア(独自算出の注目度): 29.428001314574566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first learning-based framework for category-level 3D object
detection and implicit shape estimation based on a pair of stereo RGB images in
the wild. Traditional stereo 3D object detection approaches describe the
detected objects only with 3D bounding boxes and cannot infer their full
surface geometry, which makes creating a realistic outdoor immersive experience
difficult. In contrast, we propose a new model S-3D-RCNN that can perform
precise localization as well as provide a complete and resolution-agnostic
shape description for the detected objects. We first decouple the estimation of
object coordinate systems from shape reconstruction using a global-local
framework. We then propose a new instance-level network that addresses the
unseen surface hallucination problem by extracting point-based representations
from stereo region-of-interests, and infers implicit shape codes with predicted
complete surface geometry. Extensive experiments validate our approach's
superior performance using existing and new metrics on the KITTI benchmark.
Code and pre-trained models will be available at this https URL.
- Abstract(参考訳): 本稿では,野生のステレオrgb画像に基づくカテゴリーレベルの3次元物体検出と暗黙的形状推定のための最初の学習ベースフレームワークを提案する。
従来のステレオ3Dオブジェクト検出手法では、検出された物体を3D境界ボックスでのみ記述し、その全表面形状を推測できないため、現実的な屋外没入体験を作るのが困難である。
対照的に,検出対象に対する完全かつ解像度に依存しない形状記述を提供するとともに,高精度なローカライズが可能な新しいモデルS-3D-RCNNを提案する。
まず、グローバルな局所的なフレームワークを用いて、形状再構成からオブジェクト座標系の推定を分離する。
次に,ステレオ領域からポイントベース表現を抽出し,予測された完全表面形状を持つ暗黙的形状符号を推定することにより,未知表面幻覚問題に対処する新しいインスタンスレベルネットワークを提案する。
kittiベンチマークで既存のメトリクスと新しいメトリクスを使用して、我々のアプローチの優れたパフォーマンスを検証する広範な実験。
コードと事前トレーニングされたモデルは、このhttps URLで利用できる。
関連論文リスト
- Towards High-Fidelity Single-view Holistic Reconstruction of Indoor
Scenes [50.317223783035075]
単視点画像から総合的な3次元屋内シーンを再構築するための新しい枠組みを提案する。
詳細なオブジェクト再構成のためのインスタンス整列型暗黙関数(InstPIFu)を提案する。
私たちのコードとモデルは公開されます。
論文 参考訳(メタデータ) (2022-07-18T14:54:57Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。
キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。
提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文 参考訳(メタデータ) (2020-12-21T18:52:21Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。