論文の概要: FreeMan: Towards Benchmarking 3D Human Pose Estimation in the Wild
- arxiv url: http://arxiv.org/abs/2309.05073v1
- Date: Sun, 10 Sep 2023 16:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 14:48:57.910139
- Title: FreeMan: Towards Benchmarking 3D Human Pose Estimation in the Wild
- Title(参考訳): FreeMan: 野生での3D人物推定のベンチマークを目指す
- Authors: Jiong Wang, Fengyu Yang, Wenbo Gou, Bingliang Li, Danqi Yan, Ailing
Zeng, Yijun Gao, Junle Wang, Ruimao Zhang
- Abstract要約: FreeManは、世界初の大規模な実世界のマルチビューデータセットである。
FreeManは、さまざまなシナリオで8つのスマートフォンを同期させることでキャプチャされた。
8000のシーケンスから1100万フレームで構成され、異なる視点から見ることができます。
- 参考スコア(独自算出の注目度): 26.22503944786895
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Estimating the 3D structure of the human body from natural scenes is a
fundamental aspect of visual perception. This task carries great importance for
fields like AIGC and human-robot interaction. In practice, 3D human pose
estimation in real-world settings is a critical initial step in solving this
problem. However, the current datasets, often collected under controlled
laboratory conditions using complex motion capture equipment and unvarying
backgrounds, are insufficient. The absence of real-world datasets is stalling
the progress of this crucial task. To facilitate the development of 3D pose
estimation, we present FreeMan, the first large-scale, real-world multi-view
dataset. FreeMan was captured by synchronizing 8 smartphones across diverse
scenarios. It comprises 11M frames from 8000 sequences, viewed from different
perspectives. These sequences cover 40 subjects across 10 different scenarios,
each with varying lighting conditions. We have also established an automated,
precise labeling pipeline that allows for large-scale processing efficiently.
We provide comprehensive evaluation baselines for a range of tasks, underlining
the significant challenges posed by FreeMan. Further evaluations of standard
indoor/outdoor human sensing datasets reveal that FreeMan offers robust
representation transferability in real and complex scenes. FreeMan is now
publicly available at https://wangjiongw.github.io/freeman.
- Abstract(参考訳): 自然界から人体の3次元構造を推定することは視覚知覚の基本的な側面である。
このタスクはAIGCや人間-ロボットインタラクションといった分野において非常に重要である。
実際、現実の環境での3次元ポーズ推定は、この問題を解決するための重要な初期ステップである。
しかし、複雑なモーションキャプチャー装置と未知の背景を用いて制御された実験室条件下で収集される現在のデータセットは不十分である。
現実世界のデータセットがないため、この重要なタスクの進捗は停滞している。
3次元ポーズ推定の開発を容易にするために,最初の大規模実世界マルチビューデータセットであるfreemanを提案する。
freemanはさまざまなシナリオで8台のスマートフォンを同期させた。
8000のシーケンスから1100万フレームで構成され、異なる視点から見ることができます。
これらのシーケンスは、それぞれ異なる照明条件を持つ10のシナリオにわたる40の被験者をカバーする。
また,大規模処理を効率的に行えるように,高精度なラベリングパイプラインも構築した。
さまざまなタスクに対する総合的な評価基準を提供し,freemanが抱える重要な課題を概説する。
標準的な屋内/屋外の人間のセンシングデータセットのさらなる評価は、FreeManが実シーンと複雑なシーンで堅牢な表現転送性を提供することを示している。
FreeManはhttps://wangjiongw.github.io/freeman.comで公開されている。
関連論文リスト
- HUNTER: Unsupervised Human-centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real Scenes [21.2539366684941]
本研究では,人間中心のシナリオに対する教師なし3次元検出手法を提案する。
注目に値することに,本手法は現在の最先端技術と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T08:37:05Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - LiCamPose: Combining Multi-View LiDAR and RGB Cameras for Robust Single-frame 3D Human Pose Estimation [31.651300414497822]
LiCamPoseは、マルチビューRGBとスパースポイントクラウド情報を統合して、単一のフレームで堅牢な3Dポーズを推定するパイプラインである。
LiCamPoseは、2つの公開データセット、1つの合成データセット、1つの挑戦的な自己収集データセットを含む4つのデータセットで評価されている。
論文 参考訳(メタデータ) (2023-12-11T14:30:11Z) - Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene
Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。
我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文 参考訳(メタデータ) (2023-06-20T05:07:23Z) - JRDB-Pose: A Large-scale Dataset for Multi-Person Pose Estimation and
Tracking [6.789370732159177]
マルチパーソンポーズ推定と追跡のための大規模データセットであるJRDB-Poseを紹介する。
データセットには、屋内と屋外の混雑したチャレンジシーンが含まれています。
JRDB-Poseは、キーポイント単位のオクルージョンラベルと、シーン全体で一貫性のあるトラックIDを備えたヒューマンポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2022-10-20T07:14:37Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。