論文の概要: Human Pose Estimation in Monocular Omnidirectional Top-View Images
- arxiv url: http://arxiv.org/abs/2304.08186v1
- Date: Mon, 17 Apr 2023 11:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 15:38:04.910762
- Title: Human Pose Estimation in Monocular Omnidirectional Top-View Images
- Title(参考訳): 単眼全方位トップビュー画像における人間のポーズ推定
- Authors: Jingrui Yu, Tobias Scheck, Roman Seidel, Yukti Adya, Dipankar Nandi,
Gangolf Hirtz
- Abstract要約: 全方位画像におけるキーポイント検出タスクのためのCNNのトレーニングと評価のための新しいデータセットを提案する。
トレーニングデータセットであるTheODORE+は50,000の画像で構成され、3Dレンダリングエンジンによって作成される。
評価のために、2つのシナリオと701フレーム、1シーンあたり最大8人までの実際のPoseFESデータセットをキャプチャして注釈付けした。
- 参考スコア(独自算出の注目度): 3.07869141026886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human pose estimation (HPE) with convolutional neural networks (CNNs) for
indoor monitoring is one of the major challenges in computer vision. In
contrast to HPE in perspective views, an indoor monitoring system can consist
of an omnidirectional camera with a field of view of 180{\deg} to detect the
pose of a person with only one sensor per room. To recognize human pose, the
detection of keypoints is an essential upstream step. In our work we propose a
new dataset for training and evaluation of CNNs for the task of keypoint
detection in omnidirectional images. The training dataset, THEODORE+, consists
of 50,000 images and is created by a 3D rendering engine, where humans are
randomly walking through an indoor environment. In a dynamically created 3D
scene, persons move randomly with simultaneously moving omnidirectional camera
to generate synthetic RGB images and 2D and 3D ground truth. For evaluation
purposes, the real-world PoseFES dataset with two scenarios and 701 frames with
up to eight persons per scene was captured and annotated. We propose four
training paradigms to finetune or re-train two top-down models in MMPose and
two bottom-up models in CenterNet on THEODORE+. Beside a qualitative evaluation
we report quantitative results. Compared to a COCO pretrained baseline, we
achieve significant improvements especially for top-view scenes on the PoseFES
dataset. Our datasets can be found at
https://www.tu-chemnitz.de/etit/dst/forschung/comp_vision/datasets/index.php.en.
- Abstract(参考訳): 屋内監視のための畳み込みニューラルネットワーク(CNN)を用いたヒューマンポーズ推定(HPE)は、コンピュータビジョンにおける大きな課題の1つである。
視野ビューにおけるHPEとは対照的に、室内監視システムは180{\deg}の視野を持つ全方位カメラからなり、1室に1つのセンサーしか持たない人のポーズを検出することができる。
人間のポーズを認識するためには、キーポイントの検出が重要な上流ステップである。
本研究は,全方位画像におけるキーポイント検出タスクのためのCNNのトレーニングと評価のための新しいデータセットを提案する。
トレーニングデータセットTheODORE+は5万枚の画像で構成され、人間が屋内の環境をランダムに歩き回っている3Dレンダリングエンジンによって生成される。
動的に生成された3Dシーンでは、全方位カメラを同時に動かしてランダムに動き、合成RGB画像と2Dおよび3D地上真実を生成する。
評価のために、2つのシナリオと701フレーム、1シーンあたり最大8人までの実際のPoseFESデータセットをキャプチャして注釈付けした。
本研究では,MMPoseの2つのトップダウンモデルとTheODORE+のCenterNetの2つのボトムアップモデルを微調整または再訓練するための4つのトレーニングパラダイムを提案する。
定性的な評価に加えて、定量的な結果も報告します。
COCO事前トレーニングベースラインと比較して、特にPoseFESデータセットのトップビューシーンにおいて、大幅な改善を実現しています。
データセットはhttps://www.tu-chemnitz.de/etit/dst/forschung/comp_vision/datasets/index.php.enで確認できます。
関連論文リスト
- CameraHMR: Aligning People with Perspective [54.05758012879385]
モノクロ画像からの正確な3次元ポーズと形状推定の課題に対処する。
既存のトレーニングデータセットには、擬似基底真理(pGT)を持つ実画像が含まれている。
pGTの精度を向上させる2つの貢献をしている。
論文 参考訳(メタデータ) (2024-11-12T19:12:12Z) - Self-learning Canonical Space for Multi-view 3D Human Pose Estimation [57.969696744428475]
マルチビュー3次元人間のポーズ推定は、自然に単一ビューのポーズ推定よりも優れている。
これらの情報の正確な注釈を得るのは難しい。
完全自己管理型多視点アグリゲーションネットワーク(CMANet)を提案する。
CMANetは、大規模で質的な分析において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-19T04:54:59Z) - Learning to Estimate 3D Human Pose from Point Cloud [13.27496851711973]
本稿では,複雑な人体構造物の表面をモデル化するための入力データとして,点雲データを用いた3次元ポーズ推定のための深層人体ポーズネットワークを提案する。
2つの公開データセットに対する実験により,従来の最先端手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2022-12-25T14:22:01Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-17T17:31:24Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。