Fugu-MT 論文翻訳(概要): GDRNPP: A Geometry-guided and Fully Learning-based Object Pose Estimator

論文の概要: GDRNPP: A Geometry-guided and Fully Learning-based Object Pose Estimator

arxiv url: http://arxiv.org/abs/2102.12145v4
Date: Sat, 15 Mar 2025 06:14:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:09.142801
Title: GDRNPP: A Geometry-guided and Fully Learning-based Object Pose Estimator
Title（参考訳）: GDRNPP:幾何誘導型完全学習型オブジェクトポース推定器
Authors: Xingyu Liu, Ruida Zhang, Chenyangguang Zhang, Gu Wang, Jiwen Tang, Zhigang Li, Xiangyang Ji,
Abstract要約: 剛体物体の6次元ポーズ推定はコンピュータビジョンにおける長年の課題である。近年、ディープラーニングの出現は、信頼できる6Dポーズを予測するための畳み込みニューラルネットワーク(CNN)の可能性を明らかにしている。本稿では,完全学習型オブジェクトポーズ推定器を提案する。
参考スコア（独自算出の注目度）: 51.89441403642665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 6D pose estimation of rigid objects is a long-standing and challenging task in computer vision. Recently, the emergence of deep learning reveals the potential of Convolutional Neural Networks (CNNs) to predict reliable 6D poses. Given that direct pose regression networks currently exhibit suboptimal performance, most methods still resort to traditional techniques to varying degrees. For example, top-performing methods often adopt an indirect strategy by first establishing 2D-3D or 3D-3D correspondences followed by applying the RANSAC-based PnP or Kabsch algorithms, and further employing ICP for refinement. Despite the performance enhancement, the integration of traditional techniques makes the networks time-consuming and not end-to-end trainable. Orthogonal to them, this paper introduces a fully learning-based object pose estimator. In this work, we first perform an in-depth investigation of both direct and indirect methods and propose a simple yet effective Geometry-guided Direct Regression Network (GDRN) to learn the 6D pose from monocular images in an end-to-end manner. Afterwards, we introduce a geometry-guided pose refinement module, enhancing pose accuracy when extra depth data is available. Guided by the predicted coordinate map, we build an end-to-end differentiable architecture that establishes robust and accurate 3D-3D correspondences between the observed and rendered RGB-D images to refine the pose. Our enhanced pose estimation pipeline GDRNPP (GDRN Plus Plus) conquered the leaderboard of the BOP Challenge for two consecutive years, becoming the first to surpass all prior methods that relied on traditional techniques in both accuracy and speed. The code and models are available at https://github.com/shanice-l/gdrnpp_bop2022.
Abstract（参考訳）: 剛体物体の6次元ポーズ推定はコンピュータビジョンにおける長年の課題である。近年、ディープラーニングの出現は、信頼できる6Dポーズを予測するための畳み込みニューラルネットワーク(CNN)の可能性を明らかにしている。現在、直接ポーズ回帰ネットワークが最適以下の性能を示すことを考えると、ほとんどの手法は従来の手法に頼っている。例えば、2D-3Dまたは3D-3D対応を最初に確立し、続いてRANSACベースのPnPまたはKabschアルゴリズムを適用し、さらに改良のためにICPを採用することで間接戦略を採用することが多い。性能の向上にもかかわらず、従来の技術の統合により、ネットワークは時間がかかり、エンドツーエンドのトレーニングができない。直交的に、本論文では、完全に学習したオブジェクトポーズ推定器を紹介する。本研究では,まず直接的手法と間接的手法の両方について詳細な調査を行い,モノクロ画像からの6次元ポーズをエンドツーエンドに学習するための簡易かつ効果的な幾何誘導直接回帰ネットワーク(GDRN)を提案する。その後,幾何誘導型ポーズリファインメントモジュールを導入し,余分な深度データが得られる場合のポーズ精度を向上させる。予測座標図によって導かれるエンド・ツー・エンドの微分可能アーキテクチャは、観測されたRGB-D画像とレンダリングされたRGB-D画像との堅牢で正確な3D-3D対応を確立し、ポーズを洗練する。我々の強化されたポーズ推定パイプラインGDRNPP(GDRN Plus Plus)は、BOPチャレンジのリーダーボードを2年連続で征服し、従来の手法を精度とスピードの両方で上回った最初の方法となった。コードとモデルはhttps://github.com/shanice-l/gdrnpp_bop2022で公開されている。

関連論文リスト

SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting [4.121797302827049]
ポーズフリーで3次元の事前自由な一般化可能な3次元再構成を実現するための新しい3次元ガウススプラッティングモデルであるSelfSplatを提案する。本モデルでは,これらの課題に対して,自己教師付き深度とポーズ推定手法を効果的に統合することによって対処する。提案手法の性能を評価するため,RealEstate10K,ACID,DL3DVなどの大規模実世界のデータセットを用いて評価を行った。
論文参考訳（メタデータ） (2024-11-26T08:01:50Z)
Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文参考訳（メタデータ） (2024-06-26T16:01:10Z)
RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文参考訳（メタデータ） (2024-05-14T10:10:45Z)
GenFlow: Generalizable Recurrent Flow for 6D Pose Refinement of Novel Objects [14.598853174946656]
我々は、新しいオブジェクトへの精度と一般化を可能にするアプローチであるGenFlowを提案する。提案手法は, レンダリング画像と観察画像との間の光学的流れを予測し, 6次元ポーズを反復的に洗練する。 3次元形状の制約と、エンドツーエンドの微分システムから学習した一般化可能な幾何学的知識により、性能を向上させる。
論文参考訳（メタデータ） (2024-03-18T06:32:23Z)
RGB-based Category-level Object Pose Estimation via Decoupled Metric Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文参考訳（メタデータ） (2023-09-19T02:20:26Z)
Pseudo Flow Consistency for Self-Supervised 6D Object Pose Estimation [14.469317161361202]
補助情報なしで純粋なRGB画像で訓練できる6次元オブジェクトポーズ推定法を提案する。提案手法を3つの挑戦的データセット上で評価し,最先端の自己管理手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-19T13:52:18Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)
Take-A-Photo: 3D-to-2D Generative Pre-training of Point Cloud Models [97.58685709663287]
生成事前学習は、2次元視覚における基本モデルの性能を高めることができる。 3Dビジョンでは、トランスフォーマーベースのバックボーンの過度な信頼性と、点雲の秩序のない性質により、生成前のトレーニングのさらなる発展が制限されている。本稿では,任意の点クラウドモデルに適用可能な3D-to-2D生成事前学習法を提案する。
論文参考訳（メタデータ） (2023-07-27T16:07:03Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文参考訳（メタデータ） (2022-06-23T16:29:53Z)
Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文参考訳（メタデータ） (2022-04-26T18:00:08Z)
DGECN: A Depth-Guided Edge Convolutional Network for End-to-End 6D Pose Estimation [19.303780745324502]
6次元ポーズ推定のためのDGECN(Depth-Guided Edge Conal Network)を提案する。そこで我々は,推定深度情報の利点を生かして,対応抽出法と擬似微分可能なRANSACアルゴリズムの両方を幾何学情報で導出する。実験により,提案するネットワークは,有効性と効率の両面で,現在の作業より優れていることが示された。
論文参考訳（メタデータ） (2022-04-21T09:19:50Z)
NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation [44.42449011619408]
トレーニング中に2次元オブジェクトセグメンテーションと既知の相対カメラポーズしか必要としないNeRF-Poseという,弱教師付き再構築型パイプラインを提案する。予測応答から安定かつ正確なポーズを推定するために、NeRF対応RAN+SACアルゴリズムを用いる。 LineMod-Occlusion 実験の結果,提案手法は6次元ポーズ推定法と比較して最先端の精度を持つことがわかった。
論文参考訳（メタデータ） (2022-03-09T15:28:02Z)
6D Rotation Representation For Unconstrained Head Pose Estimation [2.1485350418225244]
本研究は, 基底真理データに対する回転行列形式を導入して, あいまいな回転ラベルの問題に対処する。このようにして、提案手法は、ポーズ予測を狭角に制限する従来のアプローチとは正反対に、全回転の外観を学習することができる。 AFLW2000およびBIWIデータセットを用いた実験により,提案手法が他の最先端手法よりも最大20%高い性能を示した。
論文参考訳（メタデータ） (2022-02-25T08:41:13Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
L6DNet: Light 6 DoF Network for Robust and Precise Object Pose Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文参考訳（メタデータ） (2020-02-03T17:41:29Z)
Learning 3D Human Shape and Pose from Dense Body Parts [117.46290013548533]
本研究では,3次元の人体形状を学習し,身体部分の密接な対応からポーズをとるために,分解・集約ネットワーク(DaNet)を提案する。ローカルストリームからのメッセージは集約され、回転ベースのポーズの堅牢な予測が強化される。提案手法は,Human3.6M,UP3D,COCO,3DPWを含む屋内および実世界のデータセットで検証される。
論文参考訳（メタデータ） (2019-12-31T15:09:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。