論文の概要: DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses
- arxiv url: http://arxiv.org/abs/2403.13683v1
- Date: Wed, 20 Mar 2024 15:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:28:26.768336
- Title: DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses
- Title(参考訳): DVMNet: 仮説を超えて見えないオブジェクトの相対的なポース
- Authors: Chen Zhao, Tong Zhang, Zheng Dang, Mathieu Salzmann,
- Abstract要約: 現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
- 参考スコア(独自算出の注目度): 59.51874686414509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the relative pose of an object between two images is pivotal to the success of generalizable object pose estimation. Existing approaches typically approximate the continuous pose representation with a large number of discrete pose hypotheses, which incurs a computationally expensive process of scoring each hypothesis at test time. By contrast, we present a Deep Voxel Matching Network (DVMNet) that eliminates the need for pose hypotheses and computes the relative object pose in a single pass. To this end, we map the two input RGB images, reference and query, to their respective voxelized 3D representations. We then pass the resulting voxels through a pose estimation module, where the voxels are aligned and the pose is computed in an end-to-end fashion by solving a least-squares problem. To enhance robustness, we introduce a weighted closest voxel algorithm capable of mitigating the impact of noisy voxels. We conduct extensive experiments on the CO3D, LINEMOD, and Objaverse datasets, demonstrating that our method delivers more accurate relative pose estimates for novel objects at a lower computational cost compared to state-of-the-art methods. Our code is released at: https://github.com/sailor-z/DVMNet/.
- Abstract(参考訳): 2つの画像間のオブジェクトの相対的なポーズを決定することは、一般化可能なオブジェクトのポーズ推定の成功に欠かせない。
既存のアプローチは典型的には、連続的なポーズ表現を多数の離散的なポーズ仮説と近似し、これはテスト時に各仮説を評価する計算にコストがかかるプロセスを引き起こす。
対照的にDVMNet(Deep Voxel Matching Network)では、仮説のポーズを不要にし、相対的なオブジェクトのポーズを1回のパスで計算する。
この目的のために、2つの入力されたRGB画像、参照とクエリをそれぞれの3D表現にマッピングする。
次に、得られたボクセルをポーズ推定モジュールに渡して、ボクセルが整列し、最小二乗問題を解くことで、ポーズをエンドツーエンドに計算する。
強靭性を高めるために,ノイズの多いボクセルの影響を緩和できる最寄りボクセルアルゴリズムを導入する。
我々はCO3D,LINEMOD,Objaverseのデータセットについて広範囲に実験を行い,提案手法が最先端の手法と比較して計算コストの低い新しいオブジェクトに対してより正確なポーズ推定を行うことを示した。
私たちのコードは、https://github.com/sailor-z/DVMNet/.comでリリースされています。
関連論文リスト
- ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - 3D-Aware Hypothesis & Verification for Generalizable Relative Object
Pose Estimation [69.73691477825079]
一般化可能なオブジェクトポーズ推定の問題に対処する新しい仮説検証フレームワークを提案する。
信頼性を計測するために,2つの入力画像から学習した3次元オブジェクト表現に3次元変換を明示的に適用する3D認識検証を導入する。
論文 参考訳(メタデータ) (2023-10-05T13:34:07Z) - Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - DPODv2: Dense Correspondence-Based 6 DoF Pose Estimation [24.770767430749288]
DPODv2(Dense Pose Object Detector)と呼ばれる3ステージ6DoFオブジェクト検出手法を提案する。
本研究では,2次元物体検出器と高密度対応推定ネットワークを組み合わせることで,フル6DFのポーズを推定する多視点ポーズ補正手法を提案する。
DPODv2は、使用済みのデータモダリティとトレーニングデータの種類によらず、高速でスケーラブルなまま、すべてのデータに対して優れた結果を得る。
論文 参考訳(メタデータ) (2022-07-06T16:48:56Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。