論文の概要: Joint stereo 3D object detection and implicit surface reconstruction
- arxiv url: http://arxiv.org/abs/2111.12924v1
- Date: Thu, 25 Nov 2021 05:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 22:10:15.412589
- Title: Joint stereo 3D object detection and implicit surface reconstruction
- Title(参考訳): ステレオ3次元物体検出と暗黙的表面再構成
- Authors: Shichao Li and Kwang-Ting Cheng
- Abstract要約: 本稿では,カテゴリーレベルの3次元オブジェクト検出と暗黙的形状推定のための,野生におけるステレオRGB画像のペアに基づく学習ベースフレームワークを提案する。
従来のステレオ3Dオブジェクト検出アプローチでは、検出された物体は3D境界ボックスのみで、その全表面形状を推測することはできない。
そこで本研究では,S-3D-RCNNの高精度なローカライゼーションと,完全かつ解像度に依存しない形状記述が可能なモデルを提案する。
- 参考スコア(独自算出の注目度): 29.428001314574566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first learning-based framework for category-level 3D object
detection and implicit shape estimation based on a pair of stereo RGB images in
the wild. Traditional stereo 3D object detection approaches describe the
detected objects only with 3D bounding boxes and cannot infer their full
surface geometry, which makes creating a realistic outdoor immersive experience
difficult. In contrast, we propose a new model S-3D-RCNN that can perform
precise localization as well as provide a complete and resolution-agnostic
shape description for the detected objects. We first decouple the estimation of
object coordinate systems from shape reconstruction using a global-local
framework. We then propose a new instance-level network that addresses the
unseen surface hallucination problem by extracting point-based representations
from stereo region-of-interests, and infers implicit shape codes with predicted
complete surface geometry. Extensive experiments validate our approach's
superior performance using existing and new metrics on the KITTI benchmark.
Code and pre-trained models will be available at this https URL.
- Abstract(参考訳): 本稿では,野生のステレオrgb画像に基づくカテゴリーレベルの3次元物体検出と暗黙的形状推定のための最初の学習ベースフレームワークを提案する。
従来のステレオ3Dオブジェクト検出手法では、検出された物体を3D境界ボックスでのみ記述し、その全表面形状を推測できないため、現実的な屋外没入体験を作るのが困難である。
対照的に,検出対象に対する完全かつ解像度に依存しない形状記述を提供するとともに,高精度なローカライズが可能な新しいモデルS-3D-RCNNを提案する。
まず、グローバルな局所的なフレームワークを用いて、形状再構成からオブジェクト座標系の推定を分離する。
次に,ステレオ領域からポイントベース表現を抽出し,予測された完全表面形状を持つ暗黙的形状符号を推定することにより,未知表面幻覚問題に対処する新しいインスタンスレベルネットワークを提案する。
kittiベンチマークで既存のメトリクスと新しいメトリクスを使用して、我々のアプローチの優れたパフォーマンスを検証する広範な実験。
コードと事前トレーニングされたモデルは、このhttps URLで利用できる。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Uncertainty Guided Policy for Active Robotic 3D Reconstruction using
Neural Radiance Fields [82.21033337949757]
本稿では,物体の暗黙のニューラル表現の各光線に沿ったカラーサンプルの重量分布のエントロピーを計算した線量不確実性推定器を提案する。
提案した推定器を用いた新しい視点から, 基礎となる3次元形状の不確かさを推測することが可能であることを示す。
ニューラルラディアンス場に基づく表現における線量不確実性によって導かれる次ベクター選択ポリシーを提案する。
論文 参考訳(メタデータ) (2022-09-17T21:28:57Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction [19.535169371240073]
本稿では,高密度物体表面を直接点雲から検出・再構成するRfD-Netを提案する。
インスタンス再構成を大域的オブジェクトローカライゼーションと局所形状予測に分離する。
我々のアプローチは、オブジェクト再構成において、最先端の技術を一貫して上回り、メッシュIoUの11以上を改善します。
論文 参考訳(メタデータ) (2020-11-30T12:58:05Z) - Exploring intermediate representation for monocular vehicle pose
estimation [38.85309013717312]
1枚のRGB画像からSO(3)の車両ポーズを復元する学習ベースの新しいフレームワークを提案する。
局所的な外観から観測角度へマッピングする以前の作品とは対照的に、我々は意味のある中間幾何学的表現(IGR)を抽出して進歩的なアプローチを探求する。
このアプローチは、知覚強度をIGRに変換するディープモデルを特徴とし、カメラ座標系における物体の向きを符号化する3次元表現にマッピングする。
論文 参考訳(メタデータ) (2020-11-17T06:30:51Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。