論文の概要: PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments
- arxiv url: http://arxiv.org/abs/2312.15130v3
- Date: Fri, 19 Jul 2024 16:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:06:44.472956
- Title: PACE: A Large-Scale Dataset with Pose Annotations in Cluttered Environments
- Title(参考訳): PACE: クラッタ環境における Pose アノテーション付き大規模データセット
- Authors: Yang You, Kai Xiong, Zhening Yang, Zhengxiang Huang, Junwei Zhou, Ruoxi Shi, Zhou Fang, Adam W. Harley, Leonidas Guibas, Cewu Lu,
- Abstract要約: PACE(Pose s in Cluttered Environments)は、散在シナリオにおけるポーズ推定手法の大規模ベンチマークである。
ベンチマークは55Kフレームで構成され、300の動画に258Kのアノテーションがあり、43のカテゴリから238のオブジェクトをカバーしている。
PACE-Simには、931オブジェクトにわたる2.4Mアノテーションを備えた100Kのフォトリアリスティックシミュレートフレームが含まれている。
- 参考スコア(独自算出の注目度): 50.79058028754952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PACE (Pose Annotations in Cluttered Environments), a large-scale benchmark designed to advance the development and evaluation of pose estimation methods in cluttered scenarios. PACE provides a large-scale real-world benchmark for both instance-level and category-level settings. The benchmark consists of 55K frames with 258K annotations across 300 videos, covering 238 objects from 43 categories and featuring a mix of rigid and articulated items in cluttered scenes. To annotate the real-world data efficiently, we develop an innovative annotation system with a calibrated 3-camera setup. Additionally, we offer PACE-Sim, which contains 100K photo-realistic simulated frames with 2.4M annotations across 931 objects. We test state-of-the-art algorithms in PACE along two tracks: pose estimation, and object pose tracking, revealing the benchmark's challenges and research opportunities. Our benchmark code and data is available on https://github.com/qq456cvb/PACE.
- Abstract(参考訳): PACE(Pose Annotations in Cluttered Environments)は,乱雑なシナリオにおけるポーズ推定手法の開発と評価を促進するために設計された大規模ベンチマークである。
PACEは、インスタンスレベルとカテゴリレベルの両方の設定に対して、大規模な実世界のベンチマークを提供する。
ベンチマークは55Kフレームで構成され、300の動画に258Kのアノテーションが付けられ、43のカテゴリから238のオブジェクトがカバーされ、散らかったシーンで固いアイテムと明瞭なアイテムが混在している。
実世界のデータを効率的にアノテートするために,キャリブレーションを施した3カメラ構成のイノベーティブなアノテーションシステムを開発した。
さらに、PACE-Simは、931個のオブジェクトに2.4Mのアノテーションを持つ100Kのフォトリアリスティック・シミュレート・フレームを含む。
PACEでは、ポーズ推定とオブジェクトポーズ追跡という2つのトラックに沿って最先端のアルゴリズムをテストし、ベンチマークの課題と研究の機会を明らかにする。
ベンチマークコードとデータはhttps://github.com/qq456cvb/PACEで公開されています。
関連論文リスト
- TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking [9.365544189576363]
6D Object Pose Estimationは、大規模なデータセットの不足に悩まされているコンピュータビジョンにおいて、決定的に難しいタスクである。
本稿では,Omni6DPoseについて紹介する。Omni6DPoseは,オブジェクトのカテゴリ,大規模,多様性の多様性を特徴とするデータセットである。
我々は、SOTAカテゴリレベルのポーズ推定フレームワークの強化版であるGenPose++を紹介し、2つの重要な改善を取り入れた。
論文 参考訳(メタデータ) (2024-06-06T17:57:20Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - SLOPER4D: A Scene-Aware Dataset for Global 4D Human Pose Estimation in
Urban Environments [0.0]
SLOPER4Dは,大都市環境下で収集された新たなシーン認識データセットである。
我々は,エゴセントリックな視点から,10の多様な都市シーンにおける12人の被験者の活動を記録している。
SLOPER4Dは15個の人間の動きで構成され、それぞれが200メートル以上の軌道長を持つ。
論文 参考訳(メタデータ) (2023-03-16T05:54:15Z) - A Neuromorphic Dataset for Object Segmentation in Indoor Cluttered
Environment [3.6047642906482142]
本稿では,屋内環境におけるオブジェクトセグメンテーションのためのイベントベースESDデータセットを提案する。
提案するデータセットは,145のシーケンスと14,166のRGBフレームから構成される。
ステレオグラフィック構成で2つのイベントベースのカメラから2188万と2080万のイベントが収集されている。
論文 参考訳(メタデータ) (2023-02-13T12:02:51Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - BCOT: A Markerless High-Precision 3D Object Tracking Benchmark [15.8625561193144]
実動物体の正確な3次元ポーズを推定するためのマルチビュー手法を提案し, 両眼データを用いてモノクロテクスチャレス3次元物体追跡のための新しいベンチマークを構築した。
オブジェクト中心モデルに基づいて、すべてのビューにおいて形状再投影制約を最小化することにより、オブジェクトのポーズを協調的に最適化する。
新しいベンチマークデータセットには、20のテクスチャレスオブジェクト、22のシーン、404の動画シーケンス、126Kの画像が含まれています。
論文 参考訳(メタデータ) (2022-03-25T03:55:03Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。