論文の概要: Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos
- arxiv url: http://arxiv.org/abs/2211.15868v1
- Date: Tue, 29 Nov 2022 01:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:22:49.282742
- Title: Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos
- Title(参考訳): 映像における人文推定のための運動認識階層型注意ネットワーク
- Authors: Kyung-Min Jin, Byoung-Sung Lim, Gun-Hee Lee, Tae-Kyung Kang,
Seong-Whan Lee
- Abstract要約: 従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 17.831839654593452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous video-based human pose estimation methods have shown promising
results by leveraging aggregated features of consecutive frames. However, most
approaches compromise accuracy to mitigate jitter or do not sufficiently
comprehend the temporal aspects of human motion. Furthermore, occlusion
increases uncertainty between consecutive frames, which results in unsmooth
results. To address these issues, we design an architecture that exploits the
keypoint kinematic features with the following components. First, we
effectively capture the temporal features by leveraging individual keypoint's
velocity and acceleration. Second, the proposed hierarchical transformer
encoder aggregates spatio-temporal dependencies and refines the 2D or 3D input
pose estimated from existing estimators. Finally, we provide an online
cross-supervision between the refined input pose generated from the encoder and
the final pose from our decoder to enable joint optimization. We demonstrate
comprehensive results and validate the effectiveness of our model in various
tasks: 2D pose estimation, 3D pose estimation, body mesh recovery, and sparsely
annotated multi-human pose estimation. Our code is available at
https://github.com/KyungMinJin/HANet.
- Abstract(参考訳): 従来の映像に基づく人物ポーズ推定手法では,連続フレームの集約特徴を活用し,有望な結果を示している。
しかし、ほとんどのアプローチはジッタを減らすために精度を損なうか、あるいは人間の動きの時間的側面を十分に理解していない。
さらに、閉塞は連続するフレーム間の不確実性を増大させ、結果として非滑らかな結果をもたらす。
これらの問題に対処するために、キーポイントキネマティック機能を次のコンポーネントで活用するアーキテクチャを設計します。
まず,各キーポイントの速度と加速度を利用して時間的特徴を効果的に捉える。
次に,提案する階層型トランスコーダは時空間依存性を集約し,既存の推定値から推定した2次元または3次元入力ポーズを洗練する。
最後に、エンコーダから生成された洗練された入力ポーズと、デコーダからの最終的なポーズとの間のオンラインクロススーパービジョンを提供し、協調最適化を可能にする。
本研究では,2次元ポーズ推定,3次元ポーズ推定,体メッシュ回復,微少な注釈付きマルチヒューマンポーズ推定など,様々なタスクにおけるモデルの有効性を検証する。
私たちのコードはhttps://github.com/KyungMinJin/HANetで公開されています。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - OTPose: Occlusion-Aware Transformer for Pose Estimation in
Sparsely-Labeled Videos [21.893572076171527]
本稿では, コンバータを用いたフレーム間の時間依存性を符号化する手法を提案する。
我々は、PoseTrack 2017とPoseTrack 2018データセットの最先端のポーズ推定結果を達成する。
論文 参考訳(メタデータ) (2022-07-20T08:06:06Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Encoder-decoder with Multi-level Attention for 3D Human Shape and Pose
Estimation [61.98690211671168]
本稿では,マルチレベルアテンション・デコーダ・ネットワーク(MAED)を提案する。
3DPWのトレーニングセットにより、MAEDはPA-MPJPEの6.2、7.2、2.4mmの従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-06T09:06:17Z) - Improving Robustness and Accuracy via Relative Information Encoding in
3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。
提案手法は2つの公開データセット上で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-07-29T14:12:19Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。