論文の概要: DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects
- arxiv url: http://arxiv.org/abs/2403.13683v2
- Date: Sat, 15 Mar 2025 04:15:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:56:41.770303
- Title: DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects
- Title(参考訳): DVMNet++: 見えないオブジェクトの相対的なポース推定を再考する
- Authors: Chen Zhao, Tong Zhang, Zheng Dang, Mathieu Salzmann,
- Abstract要約: 既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。
本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。
提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
- 参考スコア(独自算出の注目度): 59.51874686414509
- License:
- Abstract: Determining the relative pose of a previously unseen object between two images is pivotal to the success of generalizable object pose estimation. Existing approaches typically predict 3D translation utilizing the ground-truth object bounding box and approximate 3D rotation with a large number of discrete hypotheses. This strategy makes unrealistic assumptions about the availability of ground truth and incurs a computationally expensive process of scoring each hypothesis at test time. By contrast, we rethink the problem of relative pose estimation for unseen objects by presenting a Deep Voxel Matching Network (DVMNet++). Our method computes the relative object pose in a single pass, eliminating the need for ground-truth object bounding boxes and rotation hypotheses. We achieve open-set object detection by leveraging image feature embedding and natural language understanding as reference. The detection result is then employed to approximate the translation parameters and crop the object from the query image. For rotation estimation, we map the two RGB images, i.e., reference and cropped query, to their respective voxelized 3D representations. The resulting voxels are passed through a rotation estimation module, which aligns the voxels and computes the rotation in an end-to-end fashion by solving a least-squares problem. To enhance robustness, we introduce a weighted closest voxel algorithm capable of mitigating the impact of noisy voxels. We conduct extensive experiments on the CO3D, Objaverse, LINEMOD, and LINEMOD-O datasets, demonstrating that our approach delivers more accurate relative pose estimates for novel objects at a lower computational cost compared to state-of-the-art methods. Our code is released at https://github.com/sailor-z/DVMNet/.
- Abstract(参考訳): 2つの画像間の既往のオブジェクトの相対的なポーズを決定することは、一般化可能なオブジェクトのポーズ推定の成功に大きく寄与する。
既存のアプローチでは、接地構造オブジェクト境界ボックスと、多数の離散仮説による近似3次元回転を用いた3次元翻訳が一般的である。
この戦略は、基底真理の可用性に関する非現実的な仮定を行い、テスト時に各仮説を評価する計算コストの高いプロセスを引き起こす。
対照的に、我々はDeep Voxel Matching Network (DVMNet++) を提示することで、目に見えないオブジェクトに対する相対的なポーズ推定の問題を再考する。
提案手法では, 相対オブジェクトのポーズを1パスで計算し, 接地構造オブジェクト境界ボックスや回転仮説の必要性を解消する。
画像特徴の埋め込みと自然言語理解を参照として活用することにより、オープンセットのオブジェクト検出を実現する。
次に、検出結果を用いて、翻訳パラメータを近似し、クエリ画像からオブジェクトを抽出する。
回転推定では、2つのRGB画像、すなわち参照クエリとトリミングクエリをそれぞれの3D表現にマッピングする。
得られたボクセルは回転推定モジュールに渡され、ボクセルを整列させ、最小二乗問題を解くことでエンドツーエンドで回転を計算する。
強靭性を高めるために,ノイズの多いボクセルの影響を緩和できる最寄りボクセルアルゴリズムを導入する。
我々はCO3D, Objaverse, LINEMOD, LINEMOD-Oデータセットに関する広範囲な実験を行い, 提案手法は最先端の手法と比較して計算コストの低い新しいオブジェクトに対してより正確なポーズ推定を行うことを示した。
私たちのコードはhttps://github.com/sailor-z/DVMNet/で公開されています。
関連論文リスト
- Category Level 6D Object Pose Estimation from a Single RGB Image using Diffusion [9.025235713063509]
一つのRGB画像からカテゴリレベルのオブジェクトのポーズ推定を行う難しい問題に対処する。
本稿では,特定のオブジェクトモデルや深度情報を必要としない新しいソリューションを提案する。
我々のアプローチは、REAL275データセットの現在の最先端をかなりのマージンで上回る。
論文 参考訳(メタデータ) (2024-12-16T03:39:33Z) - ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - 3D-Aware Hypothesis & Verification for Generalizable Relative Object
Pose Estimation [69.73691477825079]
一般化可能なオブジェクトポーズ推定の問題に対処する新しい仮説検証フレームワークを提案する。
信頼性を計測するために,2つの入力画像から学習した3次元オブジェクト表現に3次元変換を明示的に適用する3D認識検証を導入する。
論文 参考訳(メタデータ) (2023-10-05T13:34:07Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - DPODv2: Dense Correspondence-Based 6 DoF Pose Estimation [24.770767430749288]
DPODv2(Dense Pose Object Detector)と呼ばれる3ステージ6DoFオブジェクト検出手法を提案する。
本研究では,2次元物体検出器と高密度対応推定ネットワークを組み合わせることで,フル6DFのポーズを推定する多視点ポーズ補正手法を提案する。
DPODv2は、使用済みのデータモダリティとトレーニングデータの種類によらず、高速でスケーラブルなまま、すべてのデータに対して優れた結果を得る。
論文 参考訳(メタデータ) (2022-07-06T16:48:56Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。