論文の概要: Deep Dual Consecutive Network for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2103.07254v2
- Date: Mon, 15 Mar 2021 02:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 12:18:40.848701
- Title: Deep Dual Consecutive Network for Human Pose Estimation
- Title(参考訳): ヒトポース推定のための深層二重連続ネットワーク
- Authors: Zhenguang Liu, Haoming Chen, Runyang Feng, Shuang Wu, Shouling Ji,
Bailin Yang, Xun Wang
- Abstract要約: キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
- 参考スコア(独自算出の注目度): 44.41818683253614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-frame human pose estimation in complicated situations is challenging.
Although state-of-the-art human joints detectors have demonstrated remarkable
results for static images, their performances come short when we apply these
models to video sequences. Prevalent shortcomings include the failure to handle
motion blur, video defocus, or pose occlusions, arising from the inability in
capturing the temporal dependency among video frames. On the other hand,
directly employing conventional recurrent neural networks incurs empirical
difficulties in modeling spatial contexts, especially for dealing with pose
occlusions. In this paper, we propose a novel multi-frame human pose estimation
framework, leveraging abundant temporal cues between video frames to facilitate
keypoint detection. Three modular components are designed in our framework. A
Pose Temporal Merger encodes keypoint spatiotemporal context to generate
effective searching scopes while a Pose Residual Fusion module computes
weighted pose residuals in dual directions. These are then processed via our
Pose Correction Network for efficient refining of pose estimations. Our method
ranks No.1 in the Multi-frame Person Pose Estimation Challenge on the
large-scale benchmark datasets PoseTrack2017 and PoseTrack2018. We have
released our code, hoping to inspire future research.
- Abstract(参考訳): 複雑な状況下でのマルチフレーム人間のポーズ推定は困難です。
最先端のヒト関節検出器は静的画像に対して顕著な結果を示したが,これらのモデルをビデオシーケンスに適用した場合,その性能は短かった。
一般的な欠点は、モーションボケ、ビデオデフォーカス、またはビデオフレーム間の時間依存性をキャプチャできないことから生じる閉塞を処理できないことです。
一方、従来のリカレントニューラルネットワークを直接利用すると、特にポーズオクルージョンを扱う場合、空間コンテキストのモデリングにおいて経験的な困難が生じる。
本稿では,ビデオフレーム間の豊富な時間的手がかりを活用し,キーポイント検出を容易にするマルチフレームの人物ポーズ推定フレームワークを提案する。
3つのモジュールコンポーネントがフレームワークで設計されています。
ポーズ時間マージはキーポイント時空間を符号化して効果的な探索スコープを生成し、ポーズ残差融合モジュールは重み付きポーズ残差を2方向で計算する。
これらは、ポーズ推定の効率的な精錬のためにPose Correction Networkを介して処理されます。
提案手法は,大規模ベンチマークデータセットPoseTrack2017とPoseTrack2018において,多フレームPerson Pose Estimation Challengeの1位にランクインする。
将来の研究に刺激を与えることを期待して、コードをリリースしました。
関連論文リスト
- STRIDE: Single-video based Temporally Continuous Occlusion Robust 3D Pose Estimation [27.854074900345314]
ビデオに先立って人間の動作に適合する新しいテストタイムトレーニング(TTT)手法であるSTRIDEを提案する。
筆者らのフレームワークは,モデルに依存しない柔軟性を示し,既製の3Dポーズ推定手法を用いて,堅牢性と時間的整合性を向上させる。
我々は、Occluded Human3.6M、Human3.6M、OCMotionのような挑戦的なデータセットに関する包括的な実験を通じてSTRIDEの有効性を検証する。
論文 参考訳(メタデータ) (2023-12-24T11:05:10Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文 参考訳(メタデータ) (2022-03-29T04:29:16Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。