論文の概要: FoundPose: Unseen Object Pose Estimation with Foundation Features
- arxiv url: http://arxiv.org/abs/2311.18809v1
- Date: Thu, 30 Nov 2023 18:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:11:26.031861
- Title: FoundPose: Unseen Object Pose Estimation with Foundation Features
- Title(参考訳): FoundPose: ファンデーション機能によるオブジェクトポス推定
- Authors: Evin P{\i}nar \"Ornek and Yann Labb\'e and Bugra Tekin and Lingni Ma
and Cem Keskin and Christian Forster and Tomas Hodan
- Abstract要約: FoundPoseは、単一のRGB画像から見えない剛体物体の6次元ポーズ推定法である。
この方法は、オブジェクトの3Dモデルが利用可能であるが、オブジェクト固有のトレーニングを必要としないと仮定する。
- 参考スコア(独自算出の注目度): 9.831905040413512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose FoundPose, a method for 6D pose estimation of unseen rigid objects
from a single RGB image. The method assumes that 3D models of the objects are
available but does not require any object-specific training. This is achieved
by building upon DINOv2, a recent vision foundation model with impressive
generalization capabilities. An online pose estimation stage is supported by a
minimal object representation that is built during a short onboarding stage
from DINOv2 patch features extracted from rendered object templates. Given a
query image with an object segmentation mask, FoundPose first rapidly retrieves
a handful of similarly looking templates by a DINOv2-based bag-of-words
approach. Pose hypotheses are then generated from 2D-3D correspondences
established by matching DINOv2 patch features between the query image and a
retrieved template, and finally optimized by featuremetric refinement. The
method can handle diverse objects, including challenging ones with symmetries
and without any texture, and noticeably outperforms existing RGB methods for
coarse pose estimation in both accuracy and speed on the standard BOP
benchmark. With the featuremetric and additional MegaPose refinement, which are
demonstrated complementary, the method outperforms all RGB competitors. Source
code is at: evinpinar.github.io/foundpose.
- Abstract(参考訳): 単一のRGB画像から見えざる剛体物体の6次元ポーズ推定法であるFoundPoseを提案する。
このメソッドは、オブジェクトの3dモデルが利用可能であるが、オブジェクト固有のトレーニングを必要としないと仮定する。
これは、印象的な一般化能力を持つ最近のvision foundationモデルであるdinov2で実現されている。
オンラインポーズ推定ステージは、レンダリングされたオブジェクトテンプレートから抽出されたDINOv2パッチ機能から短いオンボーディング段階で構築される最小限のオブジェクト表現によってサポートされる。
オブジェクトのセグメンテーションマスクを持つクエリイメージが与えられると、 foundpose は dinov2 ベースのbag-of-words アプローチによって、最初に一握りの類似のテンプレートを素早く取得する。
次に、検索画像と検索テンプレートのDINOv2パッチ特徴とを一致させて確立された2D-3D対応から詩仮説を生成し、最終的に特徴量補正により最適化する。
この手法は,対称性とテクスチャのない課題を含む多種多様なオブジェクトを処理でき,標準BOPベンチマークの精度と速度の両方で,既存のRGB手法よりも顕著に優れている。
補完的なMegaPoseの改良により、この手法は全てのRGB競合より優れていた。
ソースコードは: evinpinar.github.io/foundpose。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Templates for 3D Object Pose Estimation Revisited: Generalization to New
Objects and Robustness to Occlusions [79.34847067293649]
本稿では,新しい物体を認識でき,RGB画像の3次元ポーズを部分閉塞下でも推定できる手法を提案する。
ローカルオブジェクト表現を学習するために、トレーニングオブジェクトの小さなセットに依存します。
LINEMOD と Occlusion-LINEMOD のデータセットを再トレーニングせずに一般化を示すのはこれが初めてである。
論文 参考訳(メタデータ) (2022-03-31T17:50:35Z) - Pose Estimation of Specific Rigid Objects [0.7931904787652707]
本稿では,RGBまたはRGB-D入力画像から剛体物体の6次元ポーズを推定する問題に対処する。
この問題は、ロボット操作、拡張現実、自律運転など、多くの応用分野において非常に重要である。
論文 参考訳(メタデータ) (2021-12-30T14:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。