論文の概要: RePOSE: Real-Time Iterative Rendering and Refinement for 6D Object Pose
Estimation
- arxiv url: http://arxiv.org/abs/2104.00633v1
- Date: Thu, 1 Apr 2021 17:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 18:42:55.946774
- Title: RePOSE: Real-Time Iterative Rendering and Refinement for 6D Object Pose
Estimation
- Title(参考訳): repose:6次元ポーズ推定のためのリアルタイム反復レンダリングと改良
- Authors: Shun Iwase, Xingyu Liu, Rawal Khirodkar, Rio Yokota, Kris M. Kitani
- Abstract要約: Iterative pose refinementは、6Dオブジェクトのポーズ推定のための重要な処理ステップである。
CNNベースの画像表現は、ポーズの洗練に使用する計算コストが高い。
レンダリングされたRGB画像から画像特徴を抽出するためにCNNを使う代わりに、より深い特徴画像を直接描画することを提案する。
本手法は6D POSE推定のためのリアルタイム反復レンダリング・リファインメントアルゴリズムであるRePOSEと呼ばれる。
- 参考スコア(独自算出の注目度): 38.05609071384776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of iterative pose refinement is a critical processing step for 6D
object pose estimation, and its performance depends greatly on one's choice of
image representation. Image representations learned via deep convolutional
neural networks (CNN) are currently the method of choice as they are able to
robustly encode object keypoint locations. However, CNN-based image
representations are computational expensive to use for iterative pose
refinement, as they require that image features are extracted using a deep
network, once for the input image and multiple times for rendered images during
the refinement process. Instead of using a CNN to extract image features from a
rendered RGB image, we propose to directly render a deep feature image. We call
this deep texture rendering, where a shallow multi-layer perceptron is used to
directly regress a view invariant image representation of an object. Using an
estimate of the pose and deep texture rendering, our system can render an image
representation in under 1ms. This image representation is optimized such that
it makes it easier to perform nonlinear 6D pose estimation by adding a
differentiable Levenberg-Marquardt optimization network and back-propagating
the 6D pose alignment error. We call our method, RePOSE, a Real-time Iterative
Rendering and Refinement algorithm for 6D POSE estimation. RePOSE runs at 71
FPS and achieves state-of-the-art accuracy of 51.6% on the Occlusion LineMOD
dataset - a 4.1% absolute improvement over the prior art, and comparable
performance on the YCB-Video dataset with a much faster runtime than the other
pose refinement methods.
- Abstract(参考訳): 反復的なポーズ補正は6次元オブジェクトポーズ推定のための重要な処理ステップであり、その性能は画像表現の選択に大きく依存する。
ディープ畳み込みニューラルネットワーク(CNN)によって学習された画像表現は、現在、オブジェクトキーポイント位置を堅牢にエンコードできるため、選択方法となっている。
しかし、cnnベースの画像表現は、入力画像に対して1回、レンダリングされた画像に対して複数回、深層ネットワークを用いて画像特徴を抽出する必要があるため、反復的なポーズ改善に使用する計算コストがかかる。
レンダリングされたRGB画像から画像特徴を抽出するためにCNNを使う代わりに、より深い特徴画像を直接描画することを提案する。
我々はこの深層テクスチャレンダリングと呼び、浅い多層パーセプトロンを使用して、オブジェクトのビュー不変の画像表現を直接回帰する。
ポーズの推定とテクスチャの深いレンダリングを用いて,画像表現を1ミリ秒未満でレンダリングする。
この画像表現は、微分可能なレバンス・マルカルト最適化ネットワークを追加し、6Dポーズアライメント誤差をバックプロパゲートすることにより、非線形6Dポーズ推定を容易に行えるように最適化されている。
本手法は6次元ポーズ推定のためのリアルタイム反復レンダリング・リファインメントアルゴリズムであるreposeと呼ぶ。
reposeは71fpsで動作し、occupion linemodデータセットで51.6%の最先端精度を達成している。これは以前の技術よりも4.1%の絶対的な改善であり、ycbビデオデータセットでの同等の性能で、他のポーズリファインメントメソッドよりもはるかに高速である。
関連論文リスト
- RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。
オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文 参考訳(メタデータ) (2024-05-14T10:10:45Z) - TransPose: A Transformer-based 6D Object Pose Estimation Network with
Depth Refinement [5.482532589225552]
深度修正モジュールを用いた改良型トランスフォーマーベースの6次元ポーズ推定法であるTransPoseを提案する。
アーキテクチャはRGB画像のみを入力として取り込むが、深度や熱画像などの追加の補正は行わない。
次に、予測された中心、6Dポーズ、および6Dポーズの精度を向上するために、新しい深度補正モジュールが使用される。
論文 参考訳(メタデータ) (2023-07-09T17:33:13Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - Depth-based 6DoF Object Pose Estimation using Swin Transformer [1.14219428942199]
オブジェクトの6Dポーズを正確に推定することは、ロボットの把握、自律運転、拡張現実など、多くのアプリケーションにとって不可欠である。
深度画像からの幾何情報のみを用いて正確な6次元ポーズ推定を行うSwinDePoseという新しいフレームワークを提案する。
LineModおよびOcclusion LineModデータセットの実験において、SwinDePoseは深度画像を用いた6Dオブジェクトのポーズ推定のための既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-03T18:25:07Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D
Pose Estimation [11.873744190924599]
本稿では,1つの画像を入力として,回転プリミティブに基づく6次元オブジェクトポーズ推定を提案する。
変分オートエンコーダ(VAE)を利用して、基礎となるプリミティブとその関連するキーポイントを学習する。
公開データセットに対して評価すると,LINEMOD,Occlusion LINEMOD,およびY誘発データセットよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-06-14T03:55:42Z) - Single Shot 6D Object Pose Estimation [11.37625512264302]
深度画像に基づく剛体物体の6次元オブジェクトポーズ推定のための新しい単一ショット手法を提案する。
完全な畳み込みニューラルネットワークを用い、3次元入力データを空間的に離散化し、ポーズ推定を回帰タスクとみなす。
GPU上の65fpsでは、Object Pose Network(OP-Net)は非常に高速で、エンドツーエンドに最適化され、画像内の複数のオブジェクトの6Dポーズを同時に推定する。
論文 参考訳(メタデータ) (2020-04-27T11:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。