論文の概要: Video based Object 6D Pose Estimation using Transformers
- arxiv url: http://arxiv.org/abs/2210.13540v1
- Date: Mon, 24 Oct 2022 18:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:12:01.031766
- Title: Video based Object 6D Pose Estimation using Transformers
- Title(参考訳): 変圧器を用いた映像ベース物体6次元ポーズ推定
- Authors: Apoorva Beedu, Huda Alamri, Irfan Essa
- Abstract要約: VideoPoseは、ビデオ内の6Dオブジェクトポスを推定するために、以前のフレームに付随するエンドツーエンドのアテンションベースのモデリングアーキテクチャである。
我々のアーキテクチャは、長距離依存関係を効率的にキャプチャし、推論することができ、ビデオシーケンスを反復的に精錬することができる。
提案手法は最先端の Transformer 手法と同等であり,CNN ベースの手法と比較して大幅に性能が向上する。
- 参考スコア(独自算出の注目度): 6.951360830202521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a Transformer based 6D Object Pose Estimation framework
VideoPose, comprising an end-to-end attention based modelling architecture,
that attends to previous frames in order to estimate accurate 6D Object Poses
in videos. Our approach leverages the temporal information from a video
sequence for pose refinement, along with being computationally efficient and
robust. Compared to existing methods, our architecture is able to capture and
reason from long-range dependencies efficiently, thus iteratively refining over
video sequences. Experimental evaluation on the YCB-Video dataset shows that
our approach is on par with the state-of-the-art Transformer methods, and
performs significantly better relative to CNN based approaches. Further, with a
speed of 33 fps, it is also more efficient and therefore applicable to a
variety of applications that require real-time object pose estimation. Training
code and pretrained models are available at
https://github.com/ApoorvaBeedu/VideoPose
- Abstract(参考訳): 本稿では,ビデオ中の正確な6dオブジェクトポーズを推定するために,先行フレームに随伴するエンド・ツー・エンドの注意に基づくモデリングアーキテクチャからなるトランスフォーマ6dオブジェクトポーズ推定フレームワークvideoposeを提案する。
提案手法は,映像系列からの時間的情報を利用してポーズ修正を行い,計算効率が高く,堅牢である。
既存の手法と比較して、我々のアーキテクチャは長距離の依存関係を効率的に捉えて推論することができ、ビデオシーケンスを反復的に精錬することができます。
YCB-Videoデータセットの実験的評価により,我々の手法は最先端のTransformer法と同等であり,CNNベースの手法と比較して有意に優れていることがわかった。
さらに、33fpsの速度では、より効率的であり、したがってリアルタイムオブジェクトのポーズ推定を必要とする様々なアプリケーションに適用できる。
トレーニングコードと事前トレーニングされたモデルはhttps://github.com/apoorvabeedu/videoposeで入手できる。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - YOLOPose V2: Understanding and Improving Transformer-based 6D Pose
Estimation [36.067414358144816]
YOLOPoseはトランスフォーマーベースの多目的6Dポーズ推定法である。
キーポイントから向きを予測するために,学習可能な向き推定モジュールを用いる。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-07-21T12:53:54Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - VideoPose: Estimating 6D object pose from videos [14.210010379733017]
我々は、畳み込みニューラルネットワークを用いて、ビデオから直接オブジェクトのポーズを推定する、単純だが効果的なアルゴリズムを導入する。
提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、リカレントニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。
YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:57:45Z) - T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression [40.90172673391803]
T6D-Directは、DreTR上に構築され、6次元多目的ポーズ直接推定を行うトランスフォーマーベースのリアルタイム単一ステージ直接法である。
提案手法は最も高速な推定時間を実現し,ポーズ推定精度は最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2021-09-22T18:13:33Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D
Pose Estimation [11.873744190924599]
本稿では,1つの画像を入力として,回転プリミティブに基づく6次元オブジェクトポーズ推定を提案する。
変分オートエンコーダ(VAE)を利用して、基礎となるプリミティブとその関連するキーポイントを学習する。
公開データセットに対して評価すると,LINEMOD,Occlusion LINEMOD,およびY誘発データセットよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-06-14T03:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。