論文の概要: Depth-based 6DoF Object Pose Estimation using Swin Transformer
- arxiv url: http://arxiv.org/abs/2303.02133v1
- Date: Fri, 3 Mar 2023 18:25:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 13:43:02.417282
- Title: Depth-based 6DoF Object Pose Estimation using Swin Transformer
- Title(参考訳): スイム変圧器を用いた深度6DoFオブジェクトポス推定
- Authors: Zhujun Li and Ioannis Stamos
- Abstract要約: オブジェクトの6Dポーズを正確に推定することは、ロボットの把握、自律運転、拡張現実など、多くのアプリケーションにとって不可欠である。
深度画像からの幾何情報のみを用いて正確な6次元ポーズ推定を行うSwinDePoseという新しいフレームワークを提案する。
LineModおよびOcclusion LineModデータセットの実験において、SwinDePoseは深度画像を用いた6Dオブジェクトのポーズ推定のための既存の最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately estimating the 6D pose of objects is crucial for many
applications, such as robotic grasping, autonomous driving, and augmented
reality. However, this task becomes more challenging in poor lighting
conditions or when dealing with textureless objects. To address this issue,
depth images are becoming an increasingly popular choice due to their
invariance to a scene's appearance and the implicit incorporation of essential
geometric characteristics. However, fully leveraging depth information to
improve the performance of pose estimation remains a difficult and
under-investigated problem. To tackle this challenge, we propose a novel
framework called SwinDePose, that uses only geometric information from depth
images to achieve accurate 6D pose estimation. SwinDePose first calculates the
angles between each normal vector defined in a depth image and the three
coordinate axes in the camera coordinate system. The resulting angles are then
formed into an image, which is encoded using Swin Transformer. Additionally, we
apply RandLA-Net to learn the representations from point clouds. The resulting
image and point clouds embeddings are concatenated and fed into a semantic
segmentation module and a 3D keypoints localization module. Finally, we
estimate 6D poses using a least-square fitting approach based on the target
object's predicted semantic mask and 3D keypoints. In experiments on the
LineMod and Occlusion LineMod datasets, SwinDePose outperforms existing
state-of-the-art methods for 6D object pose estimation using depth images. This
demonstrates the effectiveness of our approach and highlights its potential for
improving performance in real-world scenarios. Our code is at
https://github.com/zhujunli1993/SwinDePose.
- Abstract(参考訳): オブジェクトの6Dポーズを正確に推定することは、ロボットの把握、自律運転、拡張現実など、多くのアプリケーションにとって不可欠である。
しかし、この作業は照明条件の悪さやテクスチャのない物体を扱う場合、より困難になる。
この問題に対処するため、奥行き画像はシーンの外観にばらつきがなく、重要な幾何学的特徴を暗黙的に取り入れることによって、ますます人気を集めている。
しかし, ポーズ推定の性能向上に深度情報を完全に活用することは, 困難かつ未解明の課題である。
そこで本研究では,奥行き画像からの幾何情報のみを用いて正確な6次元ポーズ推定を行う,swindeposeという新しいフレームワークを提案する。
swindeposeはまず、深度画像で定義された各正常ベクトルとカメラ座標系内の3つの座標軸との間の角度を算出する。
結果として得られる角度はイメージに形成され、Swin Transformerを使って符号化される。
さらに、RandLA-Netを用いてポイントクラウドから表現を学習する。
得られた画像とポイントクラウドの埋め込みは連結され、セマンティックセグメンテーションモジュールと3dキーポイントローカライゼーションモジュールに供給される。
最後に,ターゲットオブジェクトの予測意味マスクと3dキーポイントに基づいて,最小2乗法を用いて6dポーズを推定する。
LineModおよびOcclusion LineModデータセットの実験において、SwinDePoseは深度画像を用いた6Dオブジェクトのポーズ推定のための既存の最先端手法よりも優れている。
これは我々のアプローチの有効性を示し、実際のシナリオにおけるパフォーマンス向上の可能性を強調します。
私たちのコードはhttps://github.com/zhujunli 1993/SwinDePose.orgにある。
関連論文リスト
- Pseudo Flow Consistency for Self-Supervised 6D Object Pose Estimation [14.469317161361202]
補助情報なしで純粋なRGB画像で訓練できる6次元オブジェクトポーズ推定法を提案する。
提案手法を3つの挑戦的データセット上で評価し,最先端の自己管理手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-19T13:52:18Z) - Neural Correspondence Field for Object Pose Estimation [67.96767010122633]
1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。
入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。
論文 参考訳(メタデータ) (2022-07-30T01:48:23Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose
Estimation [76.31125154523056]
物体表面を高密度に表現できる離散ディスクリプタを提案する。
また,微粒化対応予測が可能な微粒化学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:24Z) - NeRF-Pose: A First-Reconstruct-Then-Regress Approach for
Weakly-supervised 6D Object Pose Estimation [44.42449011619408]
トレーニング中に2次元オブジェクトセグメンテーションと既知の相対カメラポーズしか必要としないNeRF-Poseという,弱教師付き再構築型パイプラインを提案する。
予測応答から安定かつ正確なポーズを推定するために、NeRF対応RAN+SACアルゴリズムを用いる。
LineMod-Occlusion 実験の結果,提案手法は6次元ポーズ推定法と比較して最先端の精度を持つことがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:28:02Z) - Weakly Supervised Learning of Keypoints for 6D Object Pose Estimation [73.40404343241782]
2次元キーポイント検出に基づく弱教師付き6次元オブジェクトポーズ推定手法を提案する。
提案手法は,最先端の完全教師付きアプローチと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-03-07T16:23:47Z) - CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects
from Point Clouds [97.63549045541296]
新規なリジッドオブジェクトインスタンスに対する9DoFポーズトラッキングと,関節付きオブジェクトに対するパート毎ポーズトラッキングを処理可能な統一フレームワークを提案する。
本手法は、高速なFPS 12で、カテゴリレベルのリジッドオブジェクトポーズ(NOCS-REAL275)と関節オブジェクトポーズベンチマーク(SAPIEN、BMVC)の最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-08T00:14:58Z) - Single Shot 6D Object Pose Estimation [11.37625512264302]
深度画像に基づく剛体物体の6次元オブジェクトポーズ推定のための新しい単一ショット手法を提案する。
完全な畳み込みニューラルネットワークを用い、3次元入力データを空間的に離散化し、ポーズ推定を回帰タスクとみなす。
GPU上の65fpsでは、Object Pose Network(OP-Net)は非常に高速で、エンドツーエンドに最適化され、画像内の複数のオブジェクトの6Dポーズを同時に推定する。
論文 参考訳(メタデータ) (2020-04-27T11:59:11Z) - L6DNet: Light 6 DoF Network for Robust and Precise Object Pose
Estimation with Small Datasets [0.0]
1枚のRGB-D画像から6つのDoFオブジェクトのポーズ推定を行う新しい手法を提案する。
データ駆動と幾何学という2段階のハイブリッドパイプラインを採用しています。
私たちのアプローチは最先端の手法よりも堅牢で正確です。
論文 参考訳(メタデータ) (2020-02-03T17:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。