論文の概要: NeRF-Pose: A First-Reconstruct-Then-Regress Approach for
Weakly-supervised 6D Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2203.04802v1
- Date: Wed, 9 Mar 2022 15:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 21:30:02.492916
- Title: NeRF-Pose: A First-Reconstruct-Then-Regress Approach for
Weakly-supervised 6D Object Pose Estimation
- Title(参考訳): NeRF-Pose:弱教師付き6次元オブジェクトポース推定のための1次再構成-Then-Regressアプローチ
- Authors: Fu Li, Hao Yu, Ivan Shugurov, Benjamin Busam, Shaowu Yang, Slobodan
Ilic
- Abstract要約: トレーニング中に2次元オブジェクトセグメンテーションと既知の相対カメラポーズしか必要としないNeRF-Poseという,弱教師付き再構築型パイプラインを提案する。
予測応答から安定かつ正確なポーズを推定するために、NeRF対応RAN+SACアルゴリズムを用いる。
LineMod-Occlusion 実験の結果,提案手法は6次元ポーズ推定法と比較して最先端の精度を持つことがわかった。
- 参考スコア(独自算出の注目度): 38.159656099216896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose estimation of 3D objects in monocular images is a fundamental and
long-standing problem in computer vision. Existing deep learning approaches for
6D pose estimation typically rely on the assumption of availability of 3D
object models and 6D pose annotations. However, precise annotation of 6D poses
in real data is intricate, time-consuming and not scalable, while synthetic
data scales well but lacks realism. To avoid these problems, we present a
weakly-supervised reconstruction-based pipeline, named NeRF-Pose, which needs
only 2D object segmentation and known relative camera poses during training.
Following the first-reconstruct-then-regress idea, we first reconstruct the
objects from multiple views in the form of an implicit neural representation.
Then, we train a pose regression network to predict pixel-wise 2D-3D
correspondences between images and the reconstructed model. At inference, the
approach only needs a single image as input. A NeRF-enabled PnP+RANSAC
algorithm is used to estimate stable and accurate pose from the predicted
correspondences. Experiments on LineMod and LineMod-Occlusion show that the
proposed method has state-of-the-art accuracy in comparison to the best 6D pose
estimation methods in spite of being trained only with weak labels. Besides, we
extend the Homebrewed DB dataset with more real training images to support the
weakly supervised task and achieve compelling results on this dataset. The
extended dataset and code will be released soon.
- Abstract(参考訳): 単眼画像における3次元物体のポス推定は,コンピュータビジョンの基本的かつ長年の課題である。
既存の6Dポーズ推定のためのディープラーニングアプローチは通常、3Dオブジェクトモデルと6Dポーズアノテーションの可用性を前提にしている。
しかしながら、実データにおける6dポーズの正確なアノテーションは複雑で、時間を要するが、スケーラブルではない。
これらの問題を回避するため,本研究では2次元オブジェクトセグメンテーションと既知の相対カメラポーズのみを必要とするnrf-poseという弱い教師付き再構成ベースパイプラインを提案する。
第1の再構築-再帰的アイデアに従って、我々はまず、暗黙の神経表現の形で、複数のビューからオブジェクトを再構築する。
そこで我々は,画像と再構成されたモデル間の画素単位の2D-3D対応を予測するために,ポーズ回帰ネットワークを訓練する。
推論では、アプローチは入力として1つのイメージのみを必要とする。
予測応答から安定かつ正確なポーズを推定するために、NeRF対応PnP+RANSACアルゴリズムを用いる。
linemod と linemod-occlusion の実験により,提案手法は,弱いラベルでのみ訓練されるにも関わらず,最高の6次元ポーズ推定法と比較して,最先端の精度を示した。
さらに、よりリアルなトレーニングイメージでHomebrewed DBデータセットを拡張して、弱教師付きタスクをサポートし、このデータセット上で説得力のある結果を得る。
拡張データセットとコードはまもなくリリースされる予定だ。
関連論文リスト
- Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - OSOP: A Multi-Stage One Shot Object Pose Estimation Framework [35.89334617258322]
対象物検出のための新しいワンショット手法と,対象物に対する訓練を必要としない6DoFポーズ推定を提案する。
テスト時には、ターゲット画像とテクスチャ化された3Dクエリモデルを入力する。
The method on LineMOD, Occlusion, Homebrewed, YCB-V and TLESS datasets。
論文 参考訳(メタデータ) (2022-03-29T13:12:00Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - Single Shot 6D Object Pose Estimation [11.37625512264302]
深度画像に基づく剛体物体の6次元オブジェクトポーズ推定のための新しい単一ショット手法を提案する。
完全な畳み込みニューラルネットワークを用い、3次元入力データを空間的に離散化し、ポーズ推定を回帰タスクとみなす。
GPU上の65fpsでは、Object Pose Network(OP-Net)は非常に高速で、エンドツーエンドに最適化され、画像内の複数のオブジェクトの6Dポーズを同時に推定する。
論文 参考訳(メタデータ) (2020-04-27T11:59:11Z) - Neural Mesh Refiner for 6-DoF Pose Estimation [10.62836310872743]
ディープラーニングは、堅牢でリアルタイムな単眼ポーズ推定に有効であることが示されている。
本稿では,2次元マスク生成と3次元位置予測とのギャップをニューラルネットワークを用いて埋める。
論文 参考訳(メタデータ) (2020-03-17T07:12:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。