論文の概要: Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose
Estimation
- arxiv url: http://arxiv.org/abs/2203.14531v1
- Date: Mon, 28 Mar 2022 07:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:33:10.837574
- Title: Uni6D: A Unified CNN Framework without Projection Breakdown for 6D Pose
Estimation
- Title(参考訳): Uni6D: 6D Pose Estimationのためのプロジェクションブレークダウンのない統一CNNフレームワーク
- Authors: Xiaoke Jiang, Donghai Li, Hao Chen, Ye Zheng, Rui Zhao and Liwei Wu
- Abstract要約: 最先端のアプローチでは、通常、異なるバックボーンを使用してRGBと深度画像の特徴を抽出する。
2つの独立したバックボーンを使用する重要な理由は、"投射分解"の問題である。
入力としてRGB-D画像とともに、余分なUVデータを明示的に取り出す、シンプルで効果的なUnixDを提案する。
- 参考スコア(独自算出の注目度): 21.424035166174352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As RGB-D sensors become more affordable, using RGB-D images to obtain
high-accuracy 6D pose estimation results becomes a better option.
State-of-the-art approaches typically use different backbones to extract
features for RGB and depth images. They use a 2D CNN for RGB images and a
per-pixel point cloud network for depth data, as well as a fusion network for
feature fusion. We find that the essential reason for using two independent
backbones is the "projection breakdown" problem. In the depth image plane, the
projected 3D structure of the physical world is preserved by the 1D depth value
and its built-in 2D pixel coordinate (UV). Any spatial transformation that
modifies UV, such as resize, flip, crop, or pooling operations in the CNN
pipeline, breaks the binding between the pixel value and UV coordinate. As a
consequence, the 3D structure is no longer preserved by a modified depth image
or feature. To address this issue, we propose a simple yet effective method
denoted as Uni6D that explicitly takes the extra UV data along with RGB-D
images as input. Our method has a Unified CNN framework for 6D pose estimation
with a single CNN backbone. In particular, the architecture of our method is
based on Mask R-CNN with two extra heads, one named RT head for directly
predicting 6D pose and the other named abc head for guiding the network to map
the visible points to their coordinates in the 3D model as an auxiliary module.
This end-to-end approach balances simplicity and accuracy, achieving comparable
accuracy with state of the arts and 7.2x faster inference speed on the
YCB-Video dataset.
- Abstract(参考訳): RGB-Dセンサがより安価になるにつれて、RGB-D画像を用いて高精度な6Dポーズ推定結果を得る方がよい。
最先端のアプローチは通常、異なるバックボーンを使用してRGBと深度画像の特徴を抽出する。
RGBイメージには2D CNN、深度データにはピクセル単位のクラウドネットワーク、機能融合にはフュージョンネットワークを使用する。
2つの独立したバックボーンを使用する重要な理由は、"投射分解"の問題である。
深度画像面では、物理世界の投影された3D構造を1D深度値とその内蔵2D画素座標(UV)により保存する。
CNNパイプラインにおけるリサイズ、フリップ、クロップ、プーリング操作などのUVを変更する任意の空間変換は、ピクセル値とUV座標の間の結合を壊す。
その結果、3D構造は、修正された深度画像や特徴によってもはや保存されない。
この問題に対処するために、RGB-D画像とともに、余分なUVデータを入力として明示的に取り出す、シンプルで効果的なUnixD法を提案する。
提案手法は,1つのCNNバックボーンを用いた6次元ポーズ推定のための統一CNNフレームワークを備える。
特に,本手法のアーキテクチャはMask R-CNNをベースとして,直接6Dポーズを予測するためのRTヘッドと,可視点を3Dモデル内の座標にマッピングするためのabcヘッドを補助モジュールとして用いた。
このエンドツーエンドのアプローチは、シンプルさと正確さのバランスをとり、YCB-Videoデータセット上での最先端の精度と7.2倍高速な推論速度を達成する。
関連論文リスト
- Towards Two-view 6D Object Pose Estimation: A Comparative Study on
Fusion Strategy [16.65699606802237]
現在のRGBベースの6Dオブジェクトポーズ推定手法は、データセットや実世界のアプリケーションで顕著なパフォーマンスを達成した。
本稿では2枚のRGB画像から暗黙的な3D情報を学習する6次元オブジェクトポーズ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-01T08:22:34Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - Deep Camera Pose Regression Using Pseudo-LiDAR [1.5959408994101303]
我々は、奥行きマップを擬似LiDAR信号に変換することが、カメラのローカライゼーションタスクのより良い表現であることを示す。
擬似LiDARを用いて6DOFカメラのポーズを復元する新しいアーキテクチャであるFusionLocを提案する。
論文 参考訳(メタデータ) (2022-02-28T20:30:37Z) - VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and
Stereo Data Fusion [62.24001258298076]
VPFNetは、ポイントクラウドとイメージデータを仮想のポイントで巧みに調整し集約する新しいアーキテクチャである。
当社のVPFNetは,KITTIテストセットで83.21%の中等度3D AP,91.86%中等度BEV APを達成し,2021年5月21日以来の1位となった。
論文 参考訳(メタデータ) (2021-11-29T08:51:20Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation [54.666329929930455]
単一RGBD画像からの6次元ポーズ推定のための双方向融合ネットワークであるFFB6Dを提案する。
表現学習と出力表現選択のための表現情報と幾何学情報を組み合わせることを学ぶ。
提案手法は,いくつかのベンチマークにおいて,最先端の手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-03-03T08:07:29Z) - Depth-Adapted CNN for RGB-D cameras [0.3727773051465455]
従来の2次元畳み込みニューラルネットワーク(CNN)は線形フィルタを適用して入力画像から特徴を抽出する。
我々は,RGB-Dカメラの奥行き情報を用いて,従来のRGB CNN手法の改善に取り組み,その課題を解決した。
本稿では,CNNアーキテクチャにおける測光情報と幾何情報の両方を記述するための,新規で汎用的な手順を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:58:32Z) - Learning 2D-3D Correspondences To Solve The Blind Perspective-n-Point
Problem [98.92148855291363]
本稿では、6-DoFの絶対カメラポーズ2D--3D対応を同時に解決するディープCNNモデルを提案する。
実データとシミュレーションデータの両方でテストした結果,本手法は既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-03-15T04:17:30Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z) - L6DNet: Light 6 DoF Network for Robust and Precise Object Pose
Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。
データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。
私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文 参考訳(メタデータ) (2020-02-03T17:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。