論文の概要: YOLOPose V2: Understanding and Improving Transformer-based 6D Pose
Estimation
- arxiv url: http://arxiv.org/abs/2307.11550v1
- Date: Fri, 21 Jul 2023 12:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 12:33:53.250252
- Title: YOLOPose V2: Understanding and Improving Transformer-based 6D Pose
Estimation
- Title(参考訳): yolopose v2: トランスフォーマーベースの6次元ポーズ推定の理解と改善
- Authors: Arul Selvam Periyasamy, Arash Amini, Vladimir Tsaturyan, and Sven
Behnke
- Abstract要約: YOLOPoseはトランスフォーマーベースの多目的6Dポーズ推定法である。
キーポイントから向きを予測するために,学習可能な向き推定モジュールを用いる。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 36.067414358144816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 6D object pose estimation is a crucial prerequisite for autonomous robot
manipulation applications. The state-of-the-art models for pose estimation are
convolutional neural network (CNN)-based. Lately, Transformers, an architecture
originally proposed for natural language processing, is achieving
state-of-the-art results in many computer vision tasks as well. Equipped with
the multi-head self-attention mechanism, Transformers enable simple
single-stage end-to-end architectures for learning object detection and 6D
object pose estimation jointly. In this work, we propose YOLOPose (short form
for You Only Look Once Pose estimation), a Transformer-based multi-object 6D
pose estimation method based on keypoint regression and an improved variant of
the YOLOPose model. In contrast to the standard heatmaps for predicting
keypoints in an image, we directly regress the keypoints. Additionally, we
employ a learnable orientation estimation module to predict the orientation
from the keypoints. Along with a separate translation estimation module, our
model is end-to-end differentiable. Our method is suitable for real-time
applications and achieves results comparable to state-of-the-art methods. We
analyze the role of object queries in our architecture and reveal that the
object queries specialize in detecting objects in specific image regions.
Furthermore, we quantify the accuracy trade-off of using datasets of smaller
sizes to train our model.
- Abstract(参考訳): 6dオブジェクトポーズ推定は、自律ロボット操作アプリケーションにとって重要な前提条件である。
ポーズ推定の最先端モデルは畳み込みニューラルネットワーク(CNN)に基づくものである。
近年、自然言語処理のために提案されたアーキテクチャであるTransformersは、多くのコンピュータビジョンタスクでも最先端の結果を達成している。
マルチヘッドセルフアテンション機構を備えるトランスフォーマは、オブジェクト検出と6dオブジェクトポーズ推定を共同で学習するために、単純な1段のエンドツーエンドアーキテクチャを可能にする。
本稿では,キーポイント回帰に基づくトランスフォーマーベースの多目的6Dポーズ推定手法であるYOLOPose(You Only Look Once Pose Estimation)を提案し,改良されたYOLOPoseモデルを提案する。
画像中のキーポイントを予測するための標準的なヒートマップとは対照的に、キーポイントを直接回帰する。
さらに,学習可能な方向推定モジュールを用いて,キーポイントから方向を予測する。
別個の翻訳推定モジュールとともに、我々のモデルはエンドツーエンドで微分可能である。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
アーキテクチャにおけるオブジェクトクエリの役割を分析し、オブジェクトクエリが特定の画像領域におけるオブジェクトの検出に特化していることを明らかにする。
さらに、より小さなデータセットを使ってモデルをトレーニングする際の精度のトレードオフを定量化する。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - YOLOPose: Transformer-based Multi-Object 6D Pose Estimation using
Keypoint Regression [44.282841879849244]
キーポイント回帰に基づくトランスフォーマーに基づく多目的6Dポーズ推定手法YOLOPoseを提案する。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2022-05-05T09:51:39Z) - T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression [40.90172673391803]
T6D-Directは、DreTR上に構築され、6次元多目的ポーズ直接推定を行うトランスフォーマーベースのリアルタイム単一ステージ直接法である。
提案手法は最も高速な推定時間を実現し,ポーズ推定精度は最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2021-09-22T18:13:33Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D
Pose Estimation [11.873744190924599]
本稿では,1つの画像を入力として,回転プリミティブに基づく6次元オブジェクトポーズ推定を提案する。
変分オートエンコーダ(VAE)を利用して、基礎となるプリミティブとその関連するキーポイントを学習する。
公開データセットに対して評価すると,LINEMOD,Occlusion LINEMOD,およびY誘発データセットよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-06-14T03:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。