論文の概要: T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression
- arxiv url: http://arxiv.org/abs/2109.10948v1
- Date: Wed, 22 Sep 2021 18:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-25 03:21:19.978158
- Title: T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression
- Title(参考訳): T6D-Direct:多目的6D Pose Direct Regression用トランス
- Authors: Arash Amini, Arul Selvam Periyasamy, and Sven Behnke
- Abstract要約: T6D-Directは、DreTR上に構築され、6次元多目的ポーズ直接推定を行うトランスフォーマーベースのリアルタイム単一ステージ直接法である。
提案手法は最も高速な推定時間を実現し,ポーズ推定精度は最先端の手法に匹敵する。
- 参考スコア(独自算出の注目度): 40.90172673391803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 6D pose estimation is the task of predicting the translation and orientation
of objects in a given input image, which is a crucial prerequisite for many
robotics and augmented reality applications. Lately, the Transformer Network
architecture, equipped with a multi-head self-attention mechanism, is emerging
to achieve state-of-the-art results in many computer vision tasks. DETR, a
Transformer-based model, formulated object detection as a set prediction
problem and achieved impressive results without standard components like region
of interest pooling, non-maximal suppression, and bounding box proposals. In
this work, we propose T6D-Direct, a real-time single-stage direct method with a
transformer-based architecture built on DETR to perform 6D multi-object pose
direct estimation. We evaluate the performance of our method on the YCB-Video
dataset. Our method achieves the fastest inference time, and the pose
estimation accuracy is comparable to state-of-the-art methods.
- Abstract(参考訳): 6Dポーズ推定は入力画像中の物体の翻訳と向きを予測するタスクであり、多くのロボティクスや拡張現実アプリケーションにとって重要な前提条件である。
近年,マルチヘッド自己着脱機構を備えたトランスフォーマーネットワークアーキテクチャが登場し,多くのコンピュータビジョンタスクにおいて最先端の成果を達成している。
detr(transformer-based model)は、オブジェクト検出を集合予測問題として定式化し、利子プーリング領域、非最大抑制、バウンディングボックスの提案といった標準コンポーネントなしで素晴らしい結果を得た。
本研究では,DTR上に構築されたトランスフォーマーアーキテクチャを用いたリアルタイム単一ステージ直接手法T6D-Directを提案する。
本手法はycb-videoデータセット上での性能評価を行う。
提案手法は最も高速な推定時間を実現し,ポーズ推定精度は最先端手法に匹敵する。
関連論文リスト
- PViT-6D: Overclocking Vision Transformers for 6D Pose Estimation with
Confidence-Level Prediction and Pose Tokens [0.0]
分類トークンのカスタマイズによる直接6次元ポーズ推定のための視覚変換器の機能について検討する。
また、ほとんどの6次元ポーズ推定フレームワークに簡単に組み込むことができる、ポーズの信頼度を決定するための簡単な方法も導入する。
論文 参考訳(メタデータ) (2023-11-29T10:27:56Z) - YOLOPose V2: Understanding and Improving Transformer-based 6D Pose
Estimation [36.067414358144816]
YOLOPoseはトランスフォーマーベースの多目的6Dポーズ推定法である。
キーポイントから向きを予測するために,学習可能な向き推定モジュールを用いる。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-07-21T12:53:54Z) - TransPose: A Transformer-based 6D Object Pose Estimation Network with
Depth Refinement [5.482532589225552]
深度修正モジュールを用いた改良型トランスフォーマーベースの6次元ポーズ推定法であるTransPoseを提案する。
アーキテクチャはRGB画像のみを入力として取り込むが、深度や熱画像などの追加の補正は行わない。
次に、予測された中心、6Dポーズ、および6Dポーズの精度を向上するために、新しい深度補正モジュールが使用される。
論文 参考訳(メタデータ) (2023-07-09T17:33:13Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - CRT-6D: Fast 6D Object Pose Estimation with Cascaded Refinement
Transformers [51.142988196855484]
本稿では,CRT-6D(Cascaded Refinement Transformers)と呼ぶ新しい手法を提案する。
一般的に使用される高密度中間表現を,Os(Object Keypoint Features)と呼ばれる機能ピラミッドからサンプリングされた,各要素がオブジェクトキーポイントに対応するスパースな機能セットに置き換える。
一つのモデル上で最大21個のオブジェクトをサポートしながら,最も近いリアルタイム状態よりも2倍高速な推論を実現する。
論文 参考訳(メタデータ) (2022-10-21T04:06:52Z) - YOLOPose: Transformer-based Multi-Object 6D Pose Estimation using
Keypoint Regression [44.282841879849244]
キーポイント回帰に基づくトランスフォーマーに基づく多目的6Dポーズ推定手法YOLOPoseを提案する。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2022-05-05T09:51:39Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - Spatial Attention Improves Iterative 6D Object Pose Estimation [52.365075652976735]
本稿では,RGB画像を用いた6次元ポーズ推定の改良手法を提案する。
私たちの主な洞察力は、最初のポーズ推定の後、オブジェクトの異なる空間的特徴に注意を払うことが重要です。
実験により,このアプローチが空間的特徴に順応することを学び,被写体の一部を無視することを学び,データセット間でのポーズ推定を改善することを実証した。
論文 参考訳(メタデータ) (2021-01-05T17:18:52Z) - PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D
Pose Estimation [11.873744190924599]
本稿では,1つの画像を入力として,回転プリミティブに基づく6次元オブジェクトポーズ推定を提案する。
変分オートエンコーダ(VAE)を利用して、基礎となるプリミティブとその関連するキーポイントを学習する。
公開データセットに対して評価すると,LINEMOD,Occlusion LINEMOD,およびY誘発データセットよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-06-14T03:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。