論文の概要: Joint stereo 3D object detection and implicit surface reconstruction
- arxiv url: http://arxiv.org/abs/2111.12924v4
- Date: Sun, 16 Jun 2024 03:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 13:36:52.709867
- Title: Joint stereo 3D object detection and implicit surface reconstruction
- Title(参考訳): ステレオ3次元物体検出と暗黙的表面再構成
- Authors: Shichao Li, Xijie Huang, Zechun Liu, Kwang-Ting Cheng,
- Abstract要約: 本稿では,SO(3)の正確なオブジェクト指向を復元し,ステレオRGB画像から暗黙的な剛性形状を同時に予測できる学習ベースのフレームワークS-3D-RCNNを提案する。
方向推定のためには、局所的な外観を観測角度にマッピングする従来の研究とは対照的に、意味のある幾何学的表現(IGR)を抽出して進歩的なアプローチを提案する。
このアプローチは、知覚強度を1つか2つのビューからオブジェクト部分座標に変換するディープモデルにより、カメラ座標系において、直接自我中心のオブジェクト指向推定を実現する。
3次元境界ボックス内におけるより詳細な記述を実現するため,ステレオ画像からの暗黙的形状推定問題について検討する。
- 参考スコア(独自算出の注目度): 39.30458073540617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new learning-based framework S-3D-RCNN that can recover accurate object orientation in SO(3) and simultaneously predict implicit rigid shapes from stereo RGB images. For orientation estimation, in contrast to previous studies that map local appearance to observation angles, we propose a progressive approach by extracting meaningful Intermediate Geometrical Representations (IGRs). This approach features a deep model that transforms perceived intensities from one or two views to object part coordinates to achieve direct egocentric object orientation estimation in the camera coordinate system. To further achieve finer description inside 3D bounding boxes, we investigate the implicit shape estimation problem from stereo images. We model visible object surfaces by designing a point-based representation, augmenting IGRs to explicitly address the unseen surface hallucination problem. Extensive experiments validate the effectiveness of the proposed IGRs, and S-3D-RCNN achieves superior 3D scene understanding performance. We also designed new metrics on the KITTI benchmark for our evaluation of implicit shape estimation.
- Abstract(参考訳): 本稿では,SO(3)の正確なオブジェクト指向を復元し,ステレオRGB画像から暗黙的な剛性形状を同時に予測できる学習ベースのフレームワークS-3D-RCNNを提案する。
配向推定では、局所的な外観を観測角度にマッピングする従来の研究とは対照的に、意味のある幾何学的表現(IGR)を抽出してプログレッシブアプローチを提案する。
このアプローチは、知覚強度を1つか2つのビューからオブジェクト部分座標に変換するディープモデルにより、カメラ座標系において、直接自我中心のオブジェクト指向推定を実現する。
3次元境界ボックス内でのより詳細な記述を実現するため,ステレオ画像からの暗黙的な形状推定問題について検討する。
我々は、点ベース表現を設計し、目に見えない表面幻覚問題に明示的に対処するためにIGRを拡張することによって、可視物体表面をモデル化する。
広汎な実験により提案したIGRの有効性が検証され,S-3D-RCNNによる3次元シーン理解性能が向上した。
また、暗黙的形状推定の評価のために、KITTIベンチマークに新しい指標を設計した。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - Uncertainty Guided Policy for Active Robotic 3D Reconstruction using
Neural Radiance Fields [82.21033337949757]
本稿では,物体の暗黙のニューラル表現の各光線に沿ったカラーサンプルの重量分布のエントロピーを計算した線量不確実性推定器を提案する。
提案した推定器を用いた新しい視点から, 基礎となる3次元形状の不確かさを推測することが可能であることを示す。
ニューラルラディアンス場に基づく表現における線量不確実性によって導かれる次ベクター選択ポリシーを提案する。
論文 参考訳(メタデータ) (2022-09-17T21:28:57Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction [19.535169371240073]
本稿では,高密度物体表面を直接点雲から検出・再構成するRfD-Netを提案する。
インスタンス再構成を大域的オブジェクトローカライゼーションと局所形状予測に分離する。
我々のアプローチは、オブジェクト再構成において、最先端の技術を一貫して上回り、メッシュIoUの11以上を改善します。
論文 参考訳(メタデータ) (2020-11-30T12:58:05Z) - Exploring intermediate representation for monocular vehicle pose
estimation [38.85309013717312]
1枚のRGB画像からSO(3)の車両ポーズを復元する学習ベースの新しいフレームワークを提案する。
局所的な外観から観測角度へマッピングする以前の作品とは対照的に、我々は意味のある中間幾何学的表現(IGR)を抽出して進歩的なアプローチを探求する。
このアプローチは、知覚強度をIGRに変換するディープモデルを特徴とし、カメラ座標系における物体の向きを符号化する3次元表現にマッピングする。
論文 参考訳(メタデータ) (2020-11-17T06:30:51Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Joint Spatial-Temporal Optimization for Stereo 3D Object Tracking [34.40019455462043]
本研究では,空間時間最適化に基づくステレオ3次元物体追跡手法を提案する。
ネットワークから隣接画像上の対応する2Dバウンディングボックスを検出し,初期3Dバウンディングボックスを回帰する。
オブジェクトセントロイドに関連づけられた複雑なオブジェクトキューは、リージョンベースのネットワークを使用して予測される。
論文 参考訳(メタデータ) (2020-04-20T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。