論文の概要: PANDA: A Gigapixel-level Human-centric Video Dataset
- arxiv url: http://arxiv.org/abs/2003.04852v1
- Date: Tue, 10 Mar 2020 16:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:20:48.130104
- Title: PANDA: A Gigapixel-level Human-centric Video Dataset
- Title(参考訳): PANDA:ギガピクセルレベルの人間中心のビデオデータセット
- Authors: Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu
Xiang, Zerun Wang, Guiguang Ding, David J Brady, Qionghai Dai, Lu Fang
- Abstract要約: 大規模・長期・多目的視覚分析のための,最初のギガPixelレベルのフガン中心のViDeo dAtasetであるPANDAを提示する。
PANDAのビデオは、ギガピクセルのカメラで撮影され、広い視野と高解像度の細部の両方で現実世界のシーンをカバーしている。
PANDAは15,974.6kのバウンディングボックス、111.8kの微粒な属性ラベル、12.7kの軌道、2.2kのグループ、2.9kの相互作用を含む、リッチで階層的な基底構造アノテーションを提供する。
- 参考スコア(独自算出の注目度): 74.12377583050142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PANDA, the first gigaPixel-level humAN-centric viDeo dAtaset, for
large-scale, long-term, and multi-object visual analysis. The videos in PANDA
were captured by a gigapixel camera and cover real-world scenes with both wide
field-of-view (~1 square kilometer area) and high-resolution details
(~gigapixel-level/frame). The scenes may contain 4k head counts with over 100x
scale variation. PANDA provides enriched and hierarchical ground-truth
annotations, including 15,974.6k bounding boxes, 111.8k fine-grained attribute
labels, 12.7k trajectories, 2.2k groups and 2.9k interactions. We benchmark the
human detection and tracking tasks. Due to the vast variance of pedestrian
pose, scale, occlusion and trajectory, existing approaches are challenged by
both accuracy and efficiency. Given the uniqueness of PANDA with both wide FoV
and high resolution, a new task of interaction-aware group detection is
introduced. We design a 'global-to-local zoom-in' framework, where global
trajectories and local interactions are simultaneously encoded, yielding
promising results. We believe PANDA will contribute to the community of
artificial intelligence and praxeology by understanding human behaviors and
interactions in large-scale real-world scenes. PANDA Website:
http://www.panda-dataset.com.
- Abstract(参考訳): 大規模・長期・多目的視覚分析のための,最初のギガPixelレベルのフガン中心のViDeo dAtasetであるPANDAを提示する。
PANDAのビデオはギガピクセルカメラで撮影され、広視野(約1km)と高解像度(〜ギガピクセルレベル/フレーム)の両方で現実世界のシーンをカバーしている。
シーンは、100倍以上のスケールの4Kヘッド数を含むことができる。
PANDAは15,974.6kのバウンディングボックス、111.8kの微粒な属性ラベル、12.7kの軌道、2.2kのグループ、2.9kの相互作用を含む、リッチで階層的な基底構造アノテーションを提供する。
人間の検出と追跡のタスクをベンチマークします。
歩行者のポーズ, スケール, 閉塞, 軌道の多様さから, 既存のアプローチは精度と効率の両面から挑戦されている。
広帯域FoVと高解像度のPANDAの特異性を考えると,対話型グループ検出の新たな課題が紹介される。
我々は,グローバルトラジェクタと局所的な相互作用を同時にエンコードし,有望な結果をもたらす「グローバルからローカルへのズームイン」フレームワークを設計する。
我々はPANDAが、大規模な現実世界のシーンにおける人間の行動や相互作用を理解することによって、人工知能と実践学のコミュニティに貢献すると考えている。
panda webサイト: http://www.panda-dataset.com
関連論文リスト
- Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions [27.677520981665012]
Harmony4Dは、レスリング、ダンス、MMAなどのフィールド内アクティビティを特徴とする人間と人間のインタラクションのためのデータセットである。
我々は、フレキシブルなマルチビューキャプチャシステムを用いて、これらのダイナミックなアクティビティを記録し、人間検出、追跡、2D/3Dポーズ推定、および密接な相互作用のある被験者のためのメッシュ回復のためのアノテーションを提供する。
論文 参考訳(メタデータ) (2024-10-27T00:05:15Z) - BaboonLand Dataset: Tracking Primates in the Wild and Automating Behaviour Recognition from Drone Videos [0.8074955699721389]
本研究では,バブーン検出,追跡,行動認識のための,ドローンビデオからの新たなデータセットを提案する。
Baboon検出データセットは、ドローンビデオにすべてのbaboonをバウンディングボックスで手動でアノテートすることで作成されている。
行動認識データセットは、各動物を中心としたビデオサブリージョンであるミニシーンにトラックを変換することで生成される。
論文 参考訳(メタデータ) (2024-05-27T23:09:37Z) - HyenaPixel: Global Image Context with Convolutions [17.444066202370397]
コンボリューションに基づくアテンション置換であるHyenaを、因果配列から双方向データ、二次元画像空間まで拡張する。
画像分類において、HyenaPixelと双方向Hyenaは、それぞれ84.9%と85.2%の競合するImageNet-1kトップ1の精度を達成した。
両方向ハイエナの成功は、固定された近傍定義を使わずに、データ依存の幾何学的配置を学習することによるものである。
論文 参考訳(メタデータ) (2024-02-29T16:10:49Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Zenseact Open Dataset: A large-scale and diverse multimodal dataset for
autonomous driving [3.549770828382121]
Zenseact Open dataset (ZOD)は、ヨーロッパ各国で2年以上にわたって収集された大規模かつ多様なデータセットである。
ZODは、同等のデータセットの中で、最高範囲と解像度のセンサーを備えている。
データセットはFrames、Sequences、Drivesで構成され、データの多様性とマルチモーダル時間学習のサポートの両方を含むように設計されている。
論文 参考訳(メタデータ) (2023-05-03T09:59:18Z) - SLOPER4D: A Scene-Aware Dataset for Global 4D Human Pose Estimation in
Urban Environments [0.0]
SLOPER4Dは,大都市環境下で収集された新たなシーン認識データセットである。
我々は,エゴセントリックな視点から,10の多様な都市シーンにおける12人の被験者の活動を記録している。
SLOPER4Dは15個の人間の動きで構成され、それぞれが200メートル以上の軌道長を持つ。
論文 参考訳(メタデータ) (2023-03-16T05:54:15Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。