論文の概要: Keypoint-Based Category-Level Object Pose Tracking from an RGB Sequence
with Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2205.11047v1
- Date: Mon, 23 May 2022 05:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 19:15:36.284213
- Title: Keypoint-Based Category-Level Object Pose Tracking from an RGB Sequence
with Uncertainty Estimation
- Title(参考訳): 不確実性推定付きRGB系列からのキーポイントベースカテゴリーレベルオブジェクトの追跡
- Authors: Yunzhi Lin, Jonathan Tremblay, Stephen Tyree, Patricio A. Vela, Stan
Birchfield
- Abstract要約: 本稿では,既知のカテゴリ内のオブジェクトのインスタンスを同時に検出・追跡するカテゴリレベルの6-DoFポーズ推定アルゴリズムを提案する。
提案手法は, モノクロビデオRGBのフレームと現在のフレームと, 前フレームからの予測を入力として, 境界立方体とポーズの予測を行う。
本フレームワークは, 従来の不確実性を考慮し, その結果, 単一フレーム法よりも高精度な予測が可能となった。
- 参考スコア(独自算出の注目度): 29.06824085794294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a single-stage, category-level 6-DoF pose estimation algorithm
that simultaneously detects and tracks instances of objects within a known
category. Our method takes as input the previous and current frame from a
monocular RGB video, as well as predictions from the previous frame, to predict
the bounding cuboid and 6-DoF pose (up to scale). Internally, a deep network
predicts distributions over object keypoints (vertices of the bounding cuboid)
in image coordinates, after which a novel probabilistic filtering process
integrates across estimates before computing the final pose using PnP. Our
framework allows the system to take previous uncertainties into consideration
when predicting the current frame, resulting in predictions that are more
accurate and stable than single frame methods. Extensive experiments show that
our method outperforms existing approaches on the challenging Objectron
benchmark of annotated object videos. We also demonstrate the usability of our
work in an augmented reality setting.
- Abstract(参考訳): 既知のカテゴリ内のオブジェクトのインスタンスを同時に検出し追跡する,単段のカテゴリレベルの6自由度ポーズ推定アルゴリズムを提案する。
提案手法では,単眼のrgbビデオから前と現在のフレームを入力し,前フレームからの予測を行い,バウンディングキューブイドと6dofのポーズ(最大スケール)を予測する。
奥行きネットワークは、画像座標におけるオブジェクトキーポイント(バウンディングキューブイドの頂点)上の分布を予測し、その後、pnpを用いて最終ポーズを計算する前に、新しい確率的フィルタリングプロセスが推定にまたがって統合される。
本フレームワークでは, 従来の不確実性を考慮し, その結果, 単一フレーム法よりも精度が高く, 安定な予測が可能となった。
本手法は,アノテーション付きオブジェクトビデオのObjectronベンチマークにおいて,既存の手法よりも優れていることを示す。
拡張現実の環境では、仕事のユーザビリティも示しています。
関連論文リスト
- MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose
and Size Estimation [24.50318984800755]
RGBに基づくカテゴリレベルの6Dオブジェクトのポーズとサイズ推定のための新しいフレームワークを提案する。
私たちの斬新さは、現実的なシナリオで一般的に利用できる多視点情報を活用することにあります。
実験の結果,提案手法は最先端のRGB-D手法に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Rigidity-Aware Detection for 6D Object Pose Estimation [60.88857851869196]
最近の6Dオブジェクトのポーズ推定方法は、最初にオブジェクト検出を使用して2Dバウンディングボックスを取得し、実際にポーズを回帰する。
本研究では,6次元ポーズ推定において対象物体が剛性であるという事実を利用した剛性認識検出手法を提案する。
このアプローチの成功の鍵となるのは可視性マップであり、これは境界ボックス内の各ピクセルとボックス境界の間の最小障壁距離を用いて構築することを提案する。
論文 参考訳(メタデータ) (2023-03-22T09:02:54Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - CATRE: Iterative Point Clouds Alignment for Category-level Object Pose
Refinement [52.41884119329864]
カテゴリーレベルのオブジェクトポーズとサイズ精細化器 CATRE は、点雲からのポーズ推定を反復的に強化し、正確な結果が得られる。
提案手法は,REAL275,CAMERA25,LMのベンチマークを85.32Hzまで高速化する。
論文 参考訳(メタデータ) (2022-07-17T05:55:00Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文 参考訳(メタデータ) (2022-03-29T04:29:16Z) - REGTR: End-to-end Point Cloud Correspondences with Transformers [79.52112840465558]
我々は、注意機構が明示的な特徴マッチングとRANSACの役割を置き換えることができると推測する。
本稿では,最終文集合を直接予測するエンドツーエンドフレームワークを提案する。
提案手法は3DMatchおよびModelNetベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T06:01:00Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z) - PrimA6D: Rotational Primitive Reconstruction for Enhanced and Robust 6D
Pose Estimation [11.873744190924599]
本稿では,1つの画像を入力として,回転プリミティブに基づく6次元オブジェクトポーズ推定を提案する。
変分オートエンコーダ(VAE)を利用して、基礎となるプリミティブとその関連するキーポイントを学習する。
公開データセットに対して評価すると,LINEMOD,Occlusion LINEMOD,およびY誘発データセットよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-06-14T03:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。