論文の概要: YOLOPose: Transformer-based Multi-Object 6D Pose Estimation using
Keypoint Regression
- arxiv url: http://arxiv.org/abs/2205.02536v1
- Date: Thu, 5 May 2022 09:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 00:54:14.268143
- Title: YOLOPose: Transformer-based Multi-Object 6D Pose Estimation using
Keypoint Regression
- Title(参考訳): YOLOPose:キーポイント回帰を用いたトランスフォーマーベースマルチオブジェクト6次元ポス推定
- Authors: Arash Amini, Arul Selvam Periyasamy, Sven Behnke
- Abstract要約: キーポイント回帰に基づくトランスフォーマーに基づく多目的6Dポーズ推定手法YOLOPoseを提案する。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 44.282841879849244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 6D object pose estimation is a crucial prerequisite for autonomous robot
manipulation applications. The state-of-the-art models for pose estimation are
convolutional neural network (CNN)-based. Lately, Transformers, an architecture
originally proposed for natural language processing, is achieving
state-of-the-art results in many computer vision tasks as well. Equipped with
the multi-head self-attention mechanism, Transformers enable simple
single-stage end-to-end architectures for learning object detection and 6D
object pose estimation jointly. In this work, we propose YOLOPose (short form
for You Only Look Once Pose estimation), a Transformer-based multi-object 6D
pose estimation method based on keypoint regression. In contrast to the
standard heatmaps for predicting keypoints in an image, we directly regress the
keypoints. Additionally, we employ a learnable orientation estimation module to
predict the orientation from the keypoints. Along with a separate translation
estimation module, our model is end-to-end differentiable. Our method is
suitable for real-time applications and achieves results comparable to
state-of-the-art methods.
- Abstract(参考訳): 6dオブジェクトポーズ推定は、自律ロボット操作アプリケーションにとって重要な前提条件である。
ポーズ推定の最先端モデルは畳み込みニューラルネットワーク(CNN)に基づくものである。
近年、自然言語処理のために提案されたアーキテクチャであるTransformersは、多くのコンピュータビジョンタスクでも最先端の結果を達成している。
マルチヘッドセルフアテンション機構を備えるトランスフォーマは、オブジェクト検出と6dオブジェクトポーズ推定を共同で学習するために、単純な1段のエンドツーエンドアーキテクチャを可能にする。
本稿では,キーポイント回帰に基づく多目的6Dポーズ推定手法であるYOLOPose (Short form for You Only Look Once Pose Estimation)を提案する。
画像中のキーポイントを予測するための標準的なヒートマップとは対照的に、キーポイントを直接回帰する。
さらに,学習可能な方向推定モジュールを用いて,キーポイントから方向を予測する。
別個の翻訳推定モジュールとともに、我々のモデルはエンドツーエンドで微分可能である。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - YOLOPose V2: Understanding and Improving Transformer-based 6D Pose
Estimation [36.067414358144816]
YOLOPoseはトランスフォーマーベースの多目的6Dポーズ推定法である。
キーポイントから向きを予測するために,学習可能な向き推定モジュールを用いる。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-07-21T12:53:54Z) - OnePose++: Keypoint-Free One-Shot Object Pose Estimation without CAD
Models [51.68715543630427]
OnePoseは繰り返し可能なイメージキーポイントの検出に依存しているので、低テクスチャオブジェクトで失敗する傾向がある。
繰り返し可能なキーポイント検出の必要性を取り除くために,キーポイントフリーポーズ推定パイプラインを提案する。
2D-3Dマッチングネットワークは、クエリ画像と再構成されたポイントクラウドモデルとの間の2D-3D対応を直接確立する。
論文 参考訳(メタデータ) (2023-01-18T17:47:13Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression [40.90172673391803]
T6D-Directは、DreTR上に構築され、6次元多目的ポーズ直接推定を行うトランスフォーマーベースのリアルタイム単一ステージ直接法である。
提案手法は最も高速な推定時間を実現し,ポーズ推定精度は最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2021-09-22T18:13:33Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D
Pose Estimation [11.873744190924599]
本稿では,1つの画像を入力として,回転プリミティブに基づく6次元オブジェクトポーズ推定を提案する。
変分オートエンコーダ(VAE)を利用して、基礎となるプリミティブとその関連するキーポイントを学習する。
公開データセットに対して評価すると,LINEMOD,Occlusion LINEMOD,およびY誘発データセットよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-06-14T03:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。