論文の概要: POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with
One Reference
- arxiv url: http://arxiv.org/abs/2305.15727v1
- Date: Thu, 25 May 2023 05:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:12:44.774215
- Title: POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with
One Reference
- Title(参考訳): POPE: 任意のシーンにおけるオブジェクトの6-DoFプロンプタブルなポス推定
- Authors: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Dejia Xu, Hanwen
Jiang, Zhangyang Wang
- Abstract要約: Promptable Object Pose Estimation (POPE) と呼ばれるオブジェクトポーズ推定のための一般的なパラダイムを提案する。
POPEは、任意のシーンの任意の対象オブジェクトに対してゼロショット6DoFオブジェクトのポーズ推定を可能にし、サポートビューは単一の参照のみを採用する。
総合的な実験結果から、POPEはゼロショット設定で非競合なロバストな性能を示すことが示された。
- 参考スコア(独自算出の注目度): 72.32413378065053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant progress in six degrees-of-freedom (6DoF) object pose
estimation, existing methods have limited applicability in real-world scenarios
involving embodied agents and downstream 3D vision tasks. These limitations
mainly come from the necessity of 3D models, closed-category detection, and a
large number of densely annotated support views. To mitigate this issue, we
propose a general paradigm for object pose estimation, called Promptable Object
Pose Estimation (POPE). The proposed approach POPE enables zero-shot 6DoF
object pose estimation for any target object in any scene, while only a single
reference is adopted as the support view. To achieve this, POPE leverages the
power of the pre-trained large-scale 2D foundation model, employs a framework
with hierarchical feature representation and 3D geometry principles. Moreover,
it estimates the relative camera pose between object prompts and the target
object in new views, enabling both two-view and multi-view 6DoF pose estimation
tasks. Comprehensive experimental results demonstrate that POPE exhibits
unrivaled robust performance in zero-shot settings, by achieving a significant
reduction in the averaged Median Pose Error by 52.38% and 50.47% on the LINEMOD
and OnePose datasets, respectively. We also conduct more challenging testings
in causally captured images (see Figure 1), which further demonstrates the
robustness of POPE. Project page can be found with
https://paulpanwang.github.io/POPE/.
- Abstract(参考訳): 6自由度(6dof)オブジェクトポーズ推定の大幅な進歩にもかかわらず、既存の手法は具体化エージェントと下流の3dビジョンタスクを含む現実世界のシナリオに適用性が限られている。
これらの制限は主に、3Dモデル、クローズドカテゴリ検出、および多数の注釈付きサポートビューの必要性から来ている。
この問題を軽減するため,我々はprompatedable object pose estimation (pope) と呼ばれる,オブジェクトポーズ推定のための一般的なパラダイムを提案する。
提案手法では,任意のシーンのターゲットオブジェクトに対して,ゼロショット6DoFオブジェクトのポーズ推定が可能であり,サポートビューは単一の参照のみである。
これを実現するために、POPEは事前訓練された大規模2次元基礎モデルのパワーを活用し、階層的特徴表現と3次元幾何学の原理を持つフレームワークを使用する。
さらに、新しいビューでオブジェクトプロンプトとターゲットオブジェクトの間の相対カメラポーズを推定し、二視点と多視点の6dofポーズ推定タスクを可能にする。
総合的な実験結果から、POPEはゼロショット設定において、平均的なメディアポースエラーを52.38%、LINEMODとOnePoseのデータセットで50.47%削減することで、非競合なロバストな性能を示すことが示された。
因果的にキャプチャされた画像では、より困難なテストも行っています(図1参照)。
プロジェクトページはhttps://paulpanwang.github.io/POPE/で見ることができる。
関連論文リスト
- UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking [9.365544189576363]
6D Object Pose Estimationは、大規模なデータセットの不足に悩まされているコンピュータビジョンにおいて、決定的に難しいタスクである。
本稿では,Omni6DPoseについて紹介する。Omni6DPoseは,オブジェクトのカテゴリ,大規模,多様性の多様性を特徴とするデータセットである。
我々は、SOTAカテゴリレベルのポーズ推定フレームワークの強化版であるGenPose++を紹介し、2つの重要な改善を取り入れた。
論文 参考訳(メタデータ) (2024-06-06T17:57:20Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - 3D-Aware Hypothesis & Verification for Generalizable Relative Object
Pose Estimation [69.73691477825079]
一般化可能なオブジェクトポーズ推定の問題に対処する新しい仮説検証フレームワークを提案する。
信頼性を計測するために,2つの入力画像から学習した3次元オブジェクト表現に3次元変換を明示的に適用する3D認識検証を導入する。
論文 参考訳(メタデータ) (2023-10-05T13:34:07Z) - Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images [60.0898989456276]
本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
論文 参考訳(メタデータ) (2023-06-13T07:45:42Z) - GPV-Pose: Category-level Object Pose Estimation via Geometry-guided
Point-wise Voting [103.74918834553249]
GPV-Poseはロバストなカテゴリーレベルのポーズ推定のための新しいフレームワークである。
幾何学的洞察を利用して、カテゴリーレベルのポーズ感応的特徴の学習を強化する。
一般的な公開ベンチマークにおいて、最先端の競合相手に優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-03-15T13:58:50Z) - Single-stage Keypoint-based Category-level Object Pose Estimation from
an RGB Image [27.234658117816103]
カテゴリレベルのオブジェクトポーズ推定のための,単一段階のキーポイントに基づくアプローチを提案する。
提案ネットワークは2次元オブジェクト検出を行い、2次元キーポイントを検出し、6-DoFのポーズを推定し、相対的に有界な立方体次元を回帰する。
我々は,3次元IoU測定値における最先端の手法よりも優れた,挑戦的なObjectronベンチマークに関する広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-09-13T17:55:00Z) - CosyPose: Consistent multi-view multi-object 6D pose estimation [48.097599674329004]
単視点単体6次元ポーズ推定法を提案し、6次元オブジェクトのポーズ仮説を生成する。
第2に、異なる入力画像間で個々の6次元オブジェクトのポーズをマッチングするロバストな手法を開発する。
第3に、複数のオブジェクト仮説とそれらの対応性を考慮したグローバルなシーン改善手法を開発した。
論文 参考訳(メタデータ) (2020-08-19T14:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。