論文の概要: Neural Mesh Refiner for 6-DoF Pose Estimation
- arxiv url: http://arxiv.org/abs/2003.07561v3
- Date: Thu, 26 Mar 2020 10:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 20:46:00.533328
- Title: Neural Mesh Refiner for 6-DoF Pose Estimation
- Title(参考訳): 6-DoFポーズ推定のためのニューラルメッシュ精錬器
- Authors: Di Wu, Yihao Chen, Xianbiao Qi, Yongjian Yu, Weixuan Chen, and Rong
Xiao
- Abstract要約: ディープラーニングは、堅牢でリアルタイムな単眼ポーズ推定に有効であることが示されている。
本稿では,2次元マスク生成と3次元位置予測とのギャップをニューラルネットワークを用いて埋める。
- 参考スコア(独自算出の注目度): 10.62836310872743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we effectively utilise the 2D monocular image information for
recovering the 6D pose (6-DoF) of the visual objects? Deep learning has shown
to be effective for robust and real-time monocular pose estimation. Oftentimes,
the network learns to regress the 6-DoF pose using a naive loss function.
However, due to a lack of geometrical scene understanding from the directly
regressed pose estimation, there are misalignments between the rendered mesh
from the 3D object and the 2D instance segmentation result, e.g., bounding
boxes and masks prediction. This paper bridges the gap between 2D mask
generation and 3D location prediction via a differentiable neural mesh
renderer. We utilise the overlay between the accurate mask prediction and less
accurate mesh prediction to iteratively optimise the direct regressed 6D pose
information with a focus on translation estimation. By leveraging geometry, we
demonstrate that our technique significantly improves direct regression
performance on the difficult task of translation estimation and achieve the
state of the art results on Peking University/Baidu - Autonomous Driving
dataset and the ApolloScape 3D Car Instance dataset. The code can be found at
\url{https://bit.ly/2IRihfU}.
- Abstract(参考訳): 視覚オブジェクトの6次元ポーズ(6-DoF)を回復するために2次元単眼画像情報を効果的に活用する方法
ディープラーニングは、堅牢でリアルタイムな単眼ポーズ推定に有効であることが示されている。
しばしば、ネットワークは単純な損失関数を使って6-DoFポーズを回帰する。
しかし、直接回帰したポーズ推定からの幾何学的シーン理解の欠如により、3Dオブジェクトからのレンダリングメッシュと2Dインスタンスのセグメンテーション結果、例えばバウンディングボックスやマスク予測との間には不一致がある。
本稿では、2次元マスク生成と3次元位置予測のギャップをニューラルネットワークレンダラーで埋める。
我々は、正確なマスク予測とより正確なメッシュ予測のオーバーレイを利用して、直接回帰した6Dポーズ情報を翻訳推定に焦点をあてて反復的に最適化する。
幾何学の活用により,本手法は翻訳推定の困難な作業において,直接回帰性能を著しく向上させ,北京大学・Baidu-Autonomous DrivingデータセットとApolloScape 3D Car Instanceデータセット上での成果の達成を実証した。
コードは \url{https://bit.ly/2IRihfU} で見ることができる。
関連論文リスト
- Improving 2D-3D Dense Correspondences with Diffusion Models for 6D
Object Pose Estimation [9.760487761422326]
RGB画像と3D空間の2D-3D対応性の推定は、6Dオブジェクトのポーズ推定における根本的な問題である。
近年のポーズ推定では、高密度対応マップとポイント・ツー・ポイントアルゴリズムを用いてオブジェクトのポーズを推定している。
画像から画像への変換の最近の進歩は、ベンチマークデータセットで評価した場合、拡散モデルの方が優れた選択となっている。
論文 参考訳(メタデータ) (2024-02-09T14:27:40Z) - Pseudo Flow Consistency for Self-Supervised 6D Object Pose Estimation [14.469317161361202]
補助情報なしで純粋なRGB画像で訓練できる6次元オブジェクトポーズ推定法を提案する。
提案手法を3つの挑戦的データセット上で評価し,最先端の自己管理手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-19T13:52:18Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - NeRF-Pose: A First-Reconstruct-Then-Regress Approach for
Weakly-supervised 6D Object Pose Estimation [44.42449011619408]
トレーニング中に2次元オブジェクトセグメンテーションと既知の相対カメラポーズしか必要としないNeRF-Poseという,弱教師付き再構築型パイプラインを提案する。
予測応答から安定かつ正確なポーズを推定するために、NeRF対応RAN+SACアルゴリズムを用いる。
LineMod-Occlusion 実験の結果,提案手法は6次元ポーズ推定法と比較して最先端の精度を持つことがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:28:02Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。