論文の概要: Towards Accurate Human Pose Estimation in Videos of Crowded Scenes
- arxiv url: http://arxiv.org/abs/2010.10008v2
- Date: Wed, 21 Oct 2020 03:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:32:52.547900
- Title: Towards Accurate Human Pose Estimation in Videos of Crowded Scenes
- Title(参考訳): 群衆シーンの映像における正確な人文推定に向けて
- Authors: Li Yuan, Shuning Chang, Xuecheng Nie, Ziyuan Huang, Yichen Zhou,
Yunpeng Chen, Jiashi Feng, Shuicheng Yan
- Abstract要約: 我々は、時間的文脈を利用して新しいデータを収集する視点から、混雑したシーンのビデオにおける人間のポーズ推定を改善することに注力する。
あるフレームについては、過去のフレームから過去のポーズを転送し、その後のフレームから現在のフレームへ未来的なポーズを後退させ、ビデオにおける安定した人間のポーズ推定に繋がる。
このようにして、HIEチャレンジのテストデータセット上で、13本中7本、56.33本の平均w_APで最高の性能を達成する。
- 参考スコア(独自算出の注目度): 134.60638597115872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based human pose estimation in crowded scenes is a challenging problem
due to occlusion, motion blur, scale variation and viewpoint change, etc. Prior
approaches always fail to deal with this problem because of (1) lacking of
usage of temporal information; (2) lacking of training data in crowded scenes.
In this paper, we focus on improving human pose estimation in videos of crowded
scenes from the perspectives of exploiting temporal context and collecting new
data. In particular, we first follow the top-down strategy to detect persons
and perform single-person pose estimation for each frame. Then, we refine the
frame-based pose estimation with temporal contexts deriving from the
optical-flow. Specifically, for one frame, we forward the historical poses from
the previous frames and backward the future poses from the subsequent frames to
current frame, leading to stable and accurate human pose estimation in videos.
In addition, we mine new data of similar scenes to HIE dataset from the
Internet for improving the diversity of training set. In this way, our model
achieves best performance on 7 out of 13 videos and 56.33 average w\_AP on test
dataset of HIE challenge.
- Abstract(参考訳): 混み合った場面における映像に基づく人物ポーズ推定は, 咬合, 動きのぼやき, スケール変化, 視点変化などにより困難な課題である。
事前のアプローチは,(1)時間情報の使用不足,(2)混み合った場面でのトレーニングデータの欠如,などの理由から,常にこの問題に対処できない。
本稿では,時間的文脈の活用と新たなデータ収集の観点から,混雑シーンの映像における人間のポーズ推定の改善に焦点をあてる。
特に、まずトップダウン戦略に従って人物を検出し、フレーム毎に一人称ポーズ推定を行う。
次に, フレームに基づくポーズ推定を, 光フローから派生した時間的文脈で洗練する。
具体的には,1つのフレームに対して,前フレームから過去のポーズを転送し,後続フレームから現在のフレームへ未来的なポーズを転送し,安定して正確な人間のポーズ推定を行う。
さらに、トレーニングセットの多様性を改善するために、インターネットからhieデータセットに類似したシーンの新しいデータを発掘する。
このように、このモデルは、hie challengeのテストデータセットにおいて、13ビデオ中7本と平均56.33本のw\_apで最高のパフォーマンスを達成します。
関連論文リスト
- Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation [13.40702053084305]
ライブストリーム映像の精度と時間的整合性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法(TePose)を提案する。
マルチスケールの畳み込みネットワークを,3次元ラベリングを伴わないデータセットを用いた対人訓練のための運動判別器として提示する。
論文 参考訳(メタデータ) (2022-07-25T21:21:59Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - SMPLy Benchmarking 3D Human Pose Estimation in the Wild [14.323219585166573]
Mannequin Challengeのデータセットには、彫像のようなアクションで凍った人々の野生の映像が含まれている。
登録されたボディモデルを持つ合計24,428フレームは、ほぼ無償で567シーンから選択される。
我々は,このデータセット上で,最先端のSMPLに基づく人間のポーズ推定手法をベンチマークする。
論文 参考訳(メタデータ) (2020-12-04T17:48:32Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Self-supervised Keypoint Correspondences for Multi-Person Pose
Estimation and Tracking in Videos [32.43899916477434]
本稿では,映像中の人物を関連付けるために,キーポイント対応に依存するアプローチを提案する。
ビデオデータ上でキーポイント対応を推定するためにネットワークをトレーニングする代わりに、人間のポーズ推定のために大規模な画像データセットでトレーニングする。
提案手法は,PosTrack$2017およびPoseTrack$2018のデータセット上で,複数フレームのポーズ推定と複数人物のポーズ追跡の最先端結果を実現する。
論文 参考訳(メタデータ) (2020-04-27T09:02:24Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。