論文の概要: ZS6D: Zero-shot 6D Object Pose Estimation using Vision Transformers
- arxiv url: http://arxiv.org/abs/2309.11986v1
- Date: Thu, 21 Sep 2023 11:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 15:38:39.778010
- Title: ZS6D: Zero-shot 6D Object Pose Estimation using Vision Transformers
- Title(参考訳): zs6d:視覚トランスフォーマーを用いたゼロショット6d物体ポーズ推定
- Authors: Philipp Ausserlechner, David Haberger, Stefan Thalhammer,
Jean-Baptiste Weibel and Markus Vincze
- Abstract要約: ゼロショット新規オブジェクト6Dのポーズ推定にZS6Dを導入する。
事前訓練された視覚変換器(ViT)を用いて抽出された視覚ディスクリプタは、レンダリングテンプレートのマッチングに使用される。
LMO、YCBV、TLESSデータセットで実験が行われる。
- 参考スコア(独自算出の注目度): 9.899633398596672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As robotic systems increasingly encounter complex and unconstrained
real-world scenarios, there is a demand to recognize diverse objects. The
state-of-the-art 6D object pose estimation methods rely on object-specific
training and therefore do not generalize to unseen objects. Recent novel object
pose estimation methods are solving this issue using task-specific fine-tuned
CNNs for deep template matching. This adaptation for pose estimation still
requires expensive data rendering and training procedures. MegaPose for example
is trained on a dataset consisting of two million images showing 20,000
different objects to reach such generalization capabilities. To overcome this
shortcoming we introduce ZS6D, for zero-shot novel object 6D pose estimation.
Visual descriptors, extracted using pre-trained Vision Transformers (ViT), are
used for matching rendered templates against query images of objects and for
establishing local correspondences. These local correspondences enable deriving
geometric correspondences and are used for estimating the object's 6D pose with
RANSAC-based PnP. This approach showcases that the image descriptors extracted
by pre-trained ViTs are well-suited to achieve a notable improvement over two
state-of-the-art novel object 6D pose estimation methods, without the need for
task-specific fine-tuning. Experiments are performed on LMO, YCBV, and TLESS.
In comparison to one of the two methods we improve the Average Recall on all
three datasets and compared to the second method we improve on two datasets.
- Abstract(参考訳): ロボットシステムはますます複雑で制約のない現実世界のシナリオに直面しているため、多様な物体を認識する必要がある。
最先端の6dオブジェクトポーズ推定手法は、オブジェクト固有のトレーニングに依存しているため、見えないオブジェクトに一般化しない。
近年のオブジェクトポーズ推定手法では, タスク固有の微調整CNNを用いて, 深いテンプレートマッチングを行う。
このポーズ推定への適応には、高価なデータレンダリングとトレーニング手順が必要である。
例えばMegaPoseは、そのような一般化機能に到達するために、20,000の異なるオブジェクトを示す200万の画像からなるデータセットでトレーニングされている。
この欠点を克服するため、ゼロショット新規オブジェクト6Dのポーズ推定にZS6Dを導入する。
事前訓練された視覚変換器(ViT)を用いて抽出された視覚ディスクリプタは、描画テンプレートとオブジェクトのクエリ画像とをマッチングし、局所的な対応を確立するために使用される。
これらの局所対応は幾何学的対応を導出し、ランサックベースのpnpを用いて物体の6次元ポーズを推定するのに用いられる。
提案手法では,事前学習したViTで抽出した画像記述子は,タスク固有の微調整を必要とせず,最先端の2つのオブジェクト6Dポーズ推定法に対して顕著な改善が可能であることを示す。
LMO、YCBV、TLESSで実験を行う。
2つの方法のうちの1つと比較して、3つのデータセット全体の平均リコールを改善し、2つのデータセットで改善する2番目の方法と比較します。
関連論文リスト
- MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Imitrob: Imitation Learning Dataset for Training and Evaluating 6D
Object Pose Estimators [20.611000416051546]
本稿では,標準RGBカメラで捉えたタスクデモにおける手持ちツールの6次元ポーズ推定のためのトレーニングと評価のためのデータセットを提案する。
このデータセットには、9つの異なるツールと12の操作タスクのイメージシーケンスが含まれており、2つのカメラ視点、4人の被写体、そして左右手である。
論文 参考訳(メタデータ) (2022-09-16T14:43:46Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - CosyPose: Consistent multi-view multi-object 6D pose estimation [48.097599674329004]
単視点単体6次元ポーズ推定法を提案し、6次元オブジェクトのポーズ仮説を生成する。
第2に、異なる入力画像間で個々の6次元オブジェクトのポーズをマッチングするロバストな手法を開発する。
第3に、複数のオブジェクト仮説とそれらの対応性を考慮したグローバルなシーン改善手法を開発した。
論文 参考訳(メタデータ) (2020-08-19T14:11:56Z) - Single Shot 6D Object Pose Estimation [11.37625512264302]
深度画像に基づく剛体物体の6次元オブジェクトポーズ推定のための新しい単一ショット手法を提案する。
完全な畳み込みニューラルネットワークを用い、3次元入力データを空間的に離散化し、ポーズ推定を回帰タスクとみなす。
GPU上の65fpsでは、Object Pose Network(OP-Net)は非常に高速で、エンドツーエンドに最適化され、画像内の複数のオブジェクトの6Dポーズを同時に推定する。
論文 参考訳(メタデータ) (2020-04-27T11:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。