論文の概要: FoundPose: Unseen Object Pose Estimation with Foundation Features
- arxiv url: http://arxiv.org/abs/2311.18809v1
- Date: Thu, 30 Nov 2023 18:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:11:26.031861
- Title: FoundPose: Unseen Object Pose Estimation with Foundation Features
- Title(参考訳): FoundPose: ファンデーション機能によるオブジェクトポス推定
- Authors: Evin P{\i}nar \"Ornek and Yann Labb\'e and Bugra Tekin and Lingni Ma
and Cem Keskin and Christian Forster and Tomas Hodan
- Abstract要約: FoundPoseは、単一のRGB画像から見えない剛体物体の6次元ポーズ推定法である。
この方法は、オブジェクトの3Dモデルが利用可能であるが、オブジェクト固有のトレーニングを必要としないと仮定する。
- 参考スコア(独自算出の注目度): 9.831905040413512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose FoundPose, a method for 6D pose estimation of unseen rigid objects
from a single RGB image. The method assumes that 3D models of the objects are
available but does not require any object-specific training. This is achieved
by building upon DINOv2, a recent vision foundation model with impressive
generalization capabilities. An online pose estimation stage is supported by a
minimal object representation that is built during a short onboarding stage
from DINOv2 patch features extracted from rendered object templates. Given a
query image with an object segmentation mask, FoundPose first rapidly retrieves
a handful of similarly looking templates by a DINOv2-based bag-of-words
approach. Pose hypotheses are then generated from 2D-3D correspondences
established by matching DINOv2 patch features between the query image and a
retrieved template, and finally optimized by featuremetric refinement. The
method can handle diverse objects, including challenging ones with symmetries
and without any texture, and noticeably outperforms existing RGB methods for
coarse pose estimation in both accuracy and speed on the standard BOP
benchmark. With the featuremetric and additional MegaPose refinement, which are
demonstrated complementary, the method outperforms all RGB competitors. Source
code is at: evinpinar.github.io/foundpose.
- Abstract(参考訳): 単一のRGB画像から見えざる剛体物体の6次元ポーズ推定法であるFoundPoseを提案する。
このメソッドは、オブジェクトの3dモデルが利用可能であるが、オブジェクト固有のトレーニングを必要としないと仮定する。
これは、印象的な一般化能力を持つ最近のvision foundationモデルであるdinov2で実現されている。
オンラインポーズ推定ステージは、レンダリングされたオブジェクトテンプレートから抽出されたDINOv2パッチ機能から短いオンボーディング段階で構築される最小限のオブジェクト表現によってサポートされる。
オブジェクトのセグメンテーションマスクを持つクエリイメージが与えられると、 foundpose は dinov2 ベースのbag-of-words アプローチによって、最初に一握りの類似のテンプレートを素早く取得する。
次に、検索画像と検索テンプレートのDINOv2パッチ特徴とを一致させて確立された2D-3D対応から詩仮説を生成し、最終的に特徴量補正により最適化する。
この手法は,対称性とテクスチャのない課題を含む多種多様なオブジェクトを処理でき,標準BOPベンチマークの精度と速度の両方で,既存のRGB手法よりも顕著に優れている。
補完的なMegaPoseの改良により、この手法は全てのRGB競合より優れていた。
ソースコードは: evinpinar.github.io/foundpose。
関連論文リスト
- GigaPose: Fast and Robust Novel Object Pose Estimation via One
Correspondence [70.75902360766491]
GigaPoseは、RGB画像におけるCADベースの新しいオブジェクトポーズ推定のための高速で堅牢で正確な方法である。
提案手法では,通常の3次元ではなく,2自由度空間でテンプレートをサンプリングする。
本稿では,GigaPoseの3次元モデルによる1枚の画像からの3次元再構成の可能性を示す。
論文 参考訳(メタデータ) (2023-11-23T18:55:03Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - OnePose: One-Shot Object Pose Estimation without CAD Models [30.307122037051126]
OnePoseはCADモデルに依存しておらず、インスタンスやカテゴリ固有のネットワークトレーニングなしで任意のカテゴリのオブジェクトを処理できる。
OnePoseは視覚的なローカライゼーションからアイデアを導き、オブジェクトのスパースSfMモデルを構築するために、オブジェクトの単純なRGBビデオスキャンしか必要としない。
既存の視覚的ローカライゼーション手法の低速な実行を緩和するため,クエリ画像中の2D関心点とSfMモデルの3Dポイントとを直接マッチングするグラフアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T17:59:21Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。