論文の概要: FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models
- arxiv url: http://arxiv.org/abs/2312.00947v2
- Date: Wed, 3 Apr 2024 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:37:19.247507
- Title: FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models
- Title(参考訳): FreeZe:幾何学的・視覚的基礎モデルを用いた無訓練ゼロショット6Dポーズ推定
- Authors: Andrea Caraffa, Davide Boscaini, Amir Hamza, Fabio Poiesi,
- Abstract要約: 私たちは、特定のデータでトレーニングすることなく、同じタスクに取り組む方法を示します。
我々は、事前学習された幾何学的および視覚的基礎モデルの能力を利用する新しいソリューションFreeZeを提案する。
FreeZeは、合成6Dポーズ推定データで広く訓練されたライバルを含む、最先端のアプローチを一貫して上回っている。
- 参考スコア(独自算出の注目度): 5.754251195342313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the 6D pose of objects unseen during training is highly desirable yet challenging. Zero-shot object 6D pose estimation methods address this challenge by leveraging additional task-specific supervision provided by large-scale, photo-realistic synthetic datasets. However, their performance heavily depends on the quality and diversity of rendered data and they require extensive training. In this work, we show how to tackle the same task but without training on specific data. We propose FreeZe, a novel solution that harnesses the capabilities of pre-trained geometric and vision foundation models. FreeZe leverages 3D geometric descriptors learned from unrelated 3D point clouds and 2D visual features learned from web-scale 2D images to generate discriminative 3D point-level descriptors. We then estimate the 6D pose of unseen objects by 3D registration based on RANSAC. We also introduce a novel algorithm to solve ambiguous cases due to geometrically symmetric objects that is based on visual features. We comprehensively evaluate FreeZe across the seven core datasets of the BOP Benchmark, which include over a hundred 3D objects and 20,000 images captured in various scenarios. FreeZe consistently outperforms all state-of-the-art approaches, including competitors extensively trained on synthetic 6D pose estimation data. Code will be publicly available at https://andreacaraffa.github.io/freeze.
- Abstract(参考訳): トレーニング中に見えない物体の6Dポーズを推定することは非常に望ましいが、難しい。
ゼロショットオブジェクト6Dポーズ推定手法は、大規模で写真リアリスティックな合成データセットによって提供されるタスク固有の監視を活用することで、この問題に対処する。
しかし、それらのパフォーマンスはレンダリングされたデータの品質と多様性に大きく依存し、広範なトレーニングを必要とします。
この研究では、特定のデータをトレーニングすることなく、同じタスクにどのように取り組むかを示す。
我々は、事前学習された幾何学的および視覚的基礎モデルの能力を利用する新しいソリューションFreeZeを提案する。
FreeZeは、無関係な3Dポイントクラウドから学んだ3D幾何学的記述子と、Webスケールの2D画像から学んだ2D視覚的特徴を活用して、差別的な3Dポイントレベル記述子を生成する。
次に、RANSACに基づく3次元登録により、未確認物体の6次元ポーズを推定する。
また,視覚的特徴に基づく幾何学的に対称な物体によるあいまいなケースの解法を提案する。
我々は、BOPベンチマークの7つのコアデータセットでFreeZeを総合的に評価し、100以上の3Dオブジェクトと20,000のイメージをさまざまなシナリオでキャプチャした。
FreeZeは、合成6Dポーズ推定データで広く訓練されたライバルを含む、最先端のアプローチを一貫して上回っている。
コードはhttps://andreacaraffa.github.io/freeze.comで公開される。
関連論文リスト
- Pseudo Flow Consistency for Self-Supervised 6D Object Pose Estimation [14.469317161361202]
補助情報なしで純粋なRGB画像で訓練できる6次元オブジェクトポーズ推定法を提案する。
提案手法を3つの挑戦的データセット上で評価し,最先端の自己管理手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-19T13:52:18Z) - 3D Neural Embedding Likelihood: Probabilistic Inverse Graphics for
Robust 6D Pose Estimation [50.15926681475939]
逆グラフィックスは2次元画像から3次元シーン構造を推論することを目的としている。
確率モデルを導入し,不確実性を定量化し,6次元ポーズ推定タスクにおけるロバスト性を実現する。
3DNELは、RGBから学んだニューラルネットワークの埋め込みと深度情報を組み合わせることで、RGB-D画像からのsim-to-real 6Dオブジェクトのポーズ推定の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-02-07T20:48:35Z) - Self-Supervised Geometric Correspondence for Category-Level 6D Object
Pose Estimation in the Wild [47.80637472803838]
本研究では,大規模現実世界のオブジェクトビデオを直接学習し,カテゴリーレベルの6Dポーズ推定を行う自己教師型学習手法を提案する。
本フレームワークは,対象カテゴリの正準3次元形状を再構成し,入力画像と正準形状との密接な対応を表面埋め込みにより学習する。
意外なことに、人間のアノテーションやシミュレータを使わずに、従来の教師付きあるいは半教師付き画像の半教師付き手法よりも、オンパーまたはそれ以上のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2022-10-13T17:19:22Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - SHREC 2020 track: 6D Object Pose Estimation [26.4781238445338]
6Dのポーズ推定は、拡張現実、仮想現実、ロボット操作、視覚ナビゲーションに不可欠である。
異なるポーズ推定法は特徴表現やシーン内容によって異なる長所と短所を持つ。
データ駆動方式で6Dポーズを推定する既存の3Dデータセットには、視野角と解像度が制限されている。
論文 参考訳(メタデータ) (2020-10-19T09:45:42Z) - Single Shot 6D Object Pose Estimation [11.37625512264302]
深度画像に基づく剛体物体の6次元オブジェクトポーズ推定のための新しい単一ショット手法を提案する。
完全な畳み込みニューラルネットワークを用い、3次元入力データを空間的に離散化し、ポーズ推定を回帰タスクとみなす。
GPU上の65fpsでは、Object Pose Network(OP-Net)は非常に高速で、エンドツーエンドに最適化され、画像内の複数のオブジェクトの6Dポーズを同時に推定する。
論文 参考訳(メタデータ) (2020-04-27T11:59:11Z) - CPS++: Improving Class-level 6D Pose and Shape Estimation From Monocular
Images With Self-Supervised Learning [74.53664270194643]
現代のモノクロ6Dポーズ推定手法は、少数のオブジェクトインスタンスにしか対応できない。
そこで本研究では,計量形状検索と組み合わせて,クラスレベルのモノクル6次元ポーズ推定手法を提案する。
1枚のRGB画像から正確な6Dポーズとメートル法形状を抽出できることを実験的に実証した。
論文 参考訳(メタデータ) (2020-03-12T15:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。