論文の概要: PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments
- arxiv url: http://arxiv.org/abs/2312.15130v2
- Date: Mon, 1 Apr 2024 00:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:35:39.261368
- Title: PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments
- Title(参考訳): PACE: クラッタ環境における Pose アノテーション付き大規模データセット
- Authors: Yang You, Kai Xiong, Zhening Yang, Zhengxiang Huang, Junwei Zhou, Ruoxi Shi, Zhou Fang, Adam W. Harley, Leonidas Guibas, Cewu Lu,
- Abstract要約: PACE(Poses in Cluttered Environments)は、散在するシーンにおけるポーズ推定のための大規模ベンチマークである。
PACEは54,945フレームで構成され、300の動画に257,673のアノテーションがあり、44のカテゴリから576のオブジェクトをカバーし、堅固で明瞭なアイテムが混在している。
PACEでは、ポーズ推定とオブジェクトポーズ追跡という2つのトラックに沿って最先端のアルゴリズムをテストし、ベンチマークの課題と研究の機会を明らかにする。
- 参考スコア(独自算出の注目度): 50.79058028754952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose estimation is a crucial task in computer vision and robotics, enabling the tracking and manipulation of objects in images or videos. While several datasets exist for pose estimation, there is a lack of large-scale datasets specifically focusing on cluttered scenes with occlusions. We introduce PACE (Pose Annotations in Cluttered Environments), a large-scale benchmark designed to advance the development and evaluation of pose estimation methods in cluttered scenarios. PACE consists of 54,945 frames with 257,673 annotations across 300 videos, covering 576 objects from 44 categories and featuring a mix of rigid and articulated items in cluttered scenes. To annotate the real-world data efficiently, we developed an innovative annotation system utilizing a calibrated 3-camera setup. We test state-of-the-art algorithms in PACE along two tracks: pose estimation, and object pose tracking, revealing the benchmark's challenges and research opportunities. Our code and data is available on https://github.com/qq456cvb/PACE.
- Abstract(参考訳): ポーズ推定はコンピュータビジョンとロボティクスにおいて重要なタスクであり、画像やビデオ内の物体の追跡と操作を可能にする。
ポーズ推定のためのデータセットはいくつか存在するが、オクルージョンのある散らかったシーンに特に焦点を絞った大規模なデータセットは存在しない。
PACE(Pose Annotations in Cluttered Environments)は,乱雑なシナリオにおけるポーズ推定手法の開発と評価を促進するために設計された大規模ベンチマークである。
PACEは54,945フレームで構成され、300の動画に257,673のアノテーションがあり、44のカテゴリから576のオブジェクトをカバーしている。
実世界のデータを効率的にアノテートするために,キャリブレーションされた3カメラ装置を用いたイノベーティブなアノテーションシステムを開発した。
PACEでは、ポーズ推定とオブジェクトポーズ追跡という2つのトラックに沿って最先端のアルゴリズムをテストし、ベンチマークの課題と研究の機会を明らかにする。
私たちのコードとデータはhttps://github.com/qq456cvb/PACEで公開されています。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking [9.365544189576363]
6D Object Pose Estimationは、大規模なデータセットの不足に悩まされているコンピュータビジョンにおいて、決定的に難しいタスクである。
本稿では,Omni6DPoseについて紹介する。Omni6DPoseは,オブジェクトのカテゴリ,大規模,多様性の多様性を特徴とするデータセットである。
我々は、SOTAカテゴリレベルのポーズ推定フレームワークの強化版であるGenPose++を紹介し、2つの重要な改善を取り入れた。
論文 参考訳(メタデータ) (2024-06-06T17:57:20Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - A Neuromorphic Dataset for Object Segmentation in Indoor Cluttered
Environment [3.6047642906482142]
本稿では,屋内環境におけるオブジェクトセグメンテーションのためのイベントベースESDデータセットを提案する。
提案するデータセットは,145のシーケンスと14,166のRGBフレームから構成される。
ステレオグラフィック構成で2つのイベントベースのカメラから2188万と2080万のイベントが収集されている。
論文 参考訳(メタデータ) (2023-02-13T12:02:51Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - BCOT: A Markerless High-Precision 3D Object Tracking Benchmark [15.8625561193144]
実動物体の正確な3次元ポーズを推定するためのマルチビュー手法を提案し, 両眼データを用いてモノクロテクスチャレス3次元物体追跡のための新しいベンチマークを構築した。
オブジェクト中心モデルに基づいて、すべてのビューにおいて形状再投影制約を最小化することにより、オブジェクトのポーズを協調的に最適化する。
新しいベンチマークデータセットには、20のテクスチャレスオブジェクト、22のシーン、404の動画シーケンス、126Kの画像が含まれています。
論文 参考訳(メタデータ) (2022-03-25T03:55:03Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。