論文の概要: Diff-DOPE: Differentiable Deep Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2310.00463v1
- Date: Sat, 30 Sep 2023 18:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:12:04.144859
- Title: Diff-DOPE: Differentiable Deep Object Pose Estimation
- Title(参考訳): Diff-DOPE:微分可能なDeep Object Pose推定
- Authors: Jonathan Tremblay, Bowen Wen, Valts Blukis, Balakumar Sundaralingam,
Stephen Tyree, Stan Birchfield
- Abstract要約: Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
- 参考スコア(独自算出の注目度): 29.703385848843414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Diff-DOPE, a 6-DoF pose refiner that takes as input an image, a
3D textured model of an object, and an initial pose of the object. The method
uses differentiable rendering to update the object pose to minimize the visual
error between the image and the projection of the model. We show that this
simple, yet effective, idea is able to achieve state-of-the-art results on pose
estimation datasets. Our approach is a departure from recent methods in which
the pose refiner is a deep neural network trained on a large synthetic dataset
to map inputs to refinement steps. Rather, our use of differentiable rendering
allows us to avoid training altogether. Our approach performs multiple gradient
descent optimizations in parallel with different random learning rates to avoid
local minima from symmetric objects, similar appearances, or wrong step size.
Various modalities can be used, e.g., RGB, depth, intensity edges, and object
segmentation masks. We present experiments examining the effect of various
choices, showing that the best results are found when the RGB image is
accompanied by an object mask and depth image to guide the optimization
process.
- Abstract(参考訳): Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は微分可能なレンダリングを使用してオブジェクトのポーズを更新することで、画像とモデルの投影との間の視覚的エラーを最小限に抑える。
このシンプルで効果的なアイデアは,ポーズ推定データセットにおいて最先端の結果が得られることを示す。
提案手法は,大規模合成データセット上で訓練された深層ニューラルネットワークを用いて,入力を改良ステップにマッピングする最近の手法からの脱却である。
むしろ、差別化可能なレンダリングを使用することで、トレーニングを完全に回避できます。
提案手法は,対称オブジェクトや類似の外観,あるいは間違ったステップサイズからの局所的最小値を回避するために,異なるランダム学習率と並列に複数の勾配降下最適化を行う。
例えば、RGB、深さ、強度エッジ、オブジェクトセグメンテーションマスクなどである。
本稿では,RGB画像にオブジェクトマスクと深度画像が伴って最適化プロセスの導出を行う場合に,様々な選択の効果を検証し,最良の結果が得られることを示す。
関連論文リスト
- SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - RDPN6D: Residual-based Dense Point-wise Network for 6Dof Object Pose Estimation Based on RGB-D Images [13.051302134031808]
単一のRGB-D画像を用いてオブジェクトの6DoFポーズを計算する新しい手法を提案する。
オブジェクトのポーズを直接予測する既存の手法や、ポーズ回復のためのスパースキーポイントに依存する既存の手法とは異なり、我々のアプローチは密度の高い対応を使ってこの課題に対処する。
論文 参考訳(メタデータ) (2024-05-14T10:10:45Z) - DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - TransPoser: Transformer as an Optimizer for Joint Object Shape and Pose
Estimation [25.395619346823715]
連続観察されたRGB-D画像から剛体物体の形状と姿勢の結合推定法を提案する。
本稿では、カメラの視点と視線方向が与えられた物体の深度画像を直接出力するニューラルネットワークであるDeep Directional Distance Function(DeepDDF)を紹介する。
結合推定自体をTransPoserと呼ぶTransformerとして定式化する。
論文 参考訳(メタデータ) (2023-03-23T17:46:54Z) - Lightweight Monocular Depth Estimation [4.19709743271943]
画像セグメンテーションネットワークのUnet構造を入力として,単一のRGB画像のみを与えられた各画素の深さ値を予測するために,軽量な機械学習モデルを構築した。
提案手法は比較的高精度かつ低ルート平均二乗誤差を実現する。
論文 参考訳(メタデータ) (2022-12-21T21:05:16Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。