論文の概要: PACE: Pose Annotations in Cluttered Environments
- arxiv url: http://arxiv.org/abs/2312.15130v1
- Date: Sat, 23 Dec 2023 01:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:35:51.448679
- Title: PACE: Pose Annotations in Cluttered Environments
- Title(参考訳): PACE: クラッタ環境における Pose アノテーション
- Authors: Yang You, Kai Xiong, Zhening Yang, Zhengxiang Huang, Junwei Zhou,
Ruoxi Shi, Zhou Fang, Adam W. Harley, Cewu Lu
- Abstract要約: PACEは、乱雑なシナリオにおけるポーズ推定手法の開発と評価を促進するために設計された大規模なベンチマークである。
PACEには54,945のフレームと、300の動画に257,673のアノテーションがあり、44のカテゴリから576のオブジェクトをカバーし、厳密で明瞭なアイテムが混在している。
我々は、PACEを、私たちが開発したアノテーションツールとともに、公開評価ベンチマークとしてリリースし、この分野のさらなる進歩を刺激する予定です。
- 参考スコア(独自算出の注目度): 54.019143952287365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose estimation is a crucial task in computer vision, enabling tracking and
manipulating objects in images or videos. While several datasets exist for pose
estimation, there is a lack of large-scale datasets specifically focusing on
cluttered scenes with occlusions. This limitation is a bottleneck in the
development and evaluation of pose estimation methods, particularly toward the
goal of real-world application in environments where occlusions are common.
Addressing this, we introduce PACE (Pose Annotations in Cluttered
Environments), a large-scale benchmark designed to advance the development and
evaluation of pose estimation methods in cluttered scenarios. PACE encompasses
54,945 frames with 257,673 annotations across 300 videos, covering 576 objects
from 44 categories and featuring a mix of rigid and articulated items in
cluttered scenes. To annotate the real-world data efficiently, we developed an
innovative annotation system utilizing a calibrated 3-camera setup. We test
state-of-the-art algorithms in PACE along two tracks: pose estimation, and
object pose tracking, revealing the benchmark's challenges and research
opportunities. We plan to release PACE as a public evaluation benchmark, along
the annotations tools we developed, to stimulate further advancements in the
field. Our code and data is available on https://github.com/qq456cvb/PACE.
- Abstract(参考訳): ポーズ推定はコンピュータビジョンにおいて重要なタスクであり、画像やビデオのオブジェクトの追跡と操作を可能にする。
ポーズ推定用のデータセットはいくつか存在するが、オクルージョンのある散らかったシーンに特化して大規模なデータセットは存在しない。
この制限はポーズ推定手法の開発と評価におけるボトルネックであり、特にオクルージョンが一般的である環境での現実世界の応用の目標に向かっている。
PACE(Pose Annotations in Cluttered Environments)は,乱雑なシナリオにおけるポーズ推定手法の開発と評価を促進するために設計された大規模ベンチマークである。
PACEには54,945のフレームがあり、300の動画に257,673のアノテーションがあり、44のカテゴリから576のオブジェクトをカバーしている。
実世界のデータを効率的にアノテートするために,3カメラのキャリブレーションを用いた革新的なアノテーションシステムを開発した。
我々は2つのトラック(ポーズ推定とオブジェクトポーズ追跡)に沿って最先端アルゴリズムをペースでテストし、ベンチマークの課題と研究機会を明らかにする。
PACEは、私たちが開発したアノテーションツールとともに、公開評価ベンチマークとしてリリースする予定です。
私たちのコードとデータはhttps://github.com/qq456cvb/paceで入手できます。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking [9.365544189576363]
6D Object Pose Estimationは、大規模なデータセットの不足に悩まされているコンピュータビジョンにおいて、決定的に難しいタスクである。
本稿では,Omni6DPoseについて紹介する。Omni6DPoseは,オブジェクトのカテゴリ,大規模,多様性の多様性を特徴とするデータセットである。
我々は、SOTAカテゴリレベルのポーズ推定フレームワークの強化版であるGenPose++を紹介し、2つの重要な改善を取り入れた。
論文 参考訳(メタデータ) (2024-06-06T17:57:20Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - A Neuromorphic Dataset for Object Segmentation in Indoor Cluttered
Environment [3.6047642906482142]
本稿では,屋内環境におけるオブジェクトセグメンテーションのためのイベントベースESDデータセットを提案する。
提案するデータセットは,145のシーケンスと14,166のRGBフレームから構成される。
ステレオグラフィック構成で2つのイベントベースのカメラから2188万と2080万のイベントが収集されている。
論文 参考訳(メタデータ) (2023-02-13T12:02:51Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - BCOT: A Markerless High-Precision 3D Object Tracking Benchmark [15.8625561193144]
実動物体の正確な3次元ポーズを推定するためのマルチビュー手法を提案し, 両眼データを用いてモノクロテクスチャレス3次元物体追跡のための新しいベンチマークを構築した。
オブジェクト中心モデルに基づいて、すべてのビューにおいて形状再投影制約を最小化することにより、オブジェクトのポーズを協調的に最適化する。
新しいベンチマークデータセットには、20のテクスチャレスオブジェクト、22のシーン、404の動画シーケンス、126Kの画像が含まれています。
論文 参考訳(メタデータ) (2022-03-25T03:55:03Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。