論文の概要: Learning Human Kinematics by Modeling Temporal Correlations between
Joints for Video-based Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2207.10971v1
- Date: Fri, 22 Jul 2022 09:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:08:18.333969
- Title: Learning Human Kinematics by Modeling Temporal Correlations between
Joints for Video-based Human Pose Estimation
- Title(参考訳): ビデオに基づくヒューマンポーズ推定のための関節の時間相関のモデル化による人体運動学の学習
- Authors: Yonghao Dang, Jianqin Yin, Shaojie Zhang, Jiping Liu, Yanzhu Hu
- Abstract要約: ビデオから人間のポーズを推定することは、人間とコンピュータの相互作用において重要である。
既存のアプローチのほとんどは、ビデオから時間的特徴を抽出するために光学フロー、RNN、またはCNNを使用している。
本稿では,ドメインクロスアテンション機構に基づくプラグアンドプレイキネマティクスモデリングモジュールを提案する。
- 参考スコア(独自算出の注目度): 4.265467042008983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating human poses from videos is critical in human-computer interaction.
By precisely estimating human poses, the robot can provide an appropriate
response to the human. Most existing approaches use the optical flow, RNNs, or
CNNs to extract temporal features from videos. Despite the positive results of
these attempts, most of them only straightforwardly integrate features along
the temporal dimension, ignoring temporal correlations between joints. In
contrast to previous methods, we propose a plug-and-play kinematics modeling
module (KMM) based on the domain-cross attention mechanism to model the
temporal correlation between joints across different frames explicitly.
Specifically, the proposed KMM models the temporal correlation between any two
joints by calculating their temporal similarity. In this way, KMM can learn the
motion cues of each joint. Using the motion cues (temporal domain) and
historical positions of joints (spatial domain), KMM can infer the initial
positions of joints in the current frame in advance. In addition, we present a
kinematics modeling network (KIMNet) based on the KMM for obtaining the final
positions of joints by combining pose features and initial positions of joints.
By explicitly modeling temporal correlations between joints, KIMNet can infer
the occluded joints at present according to all joints at the previous moment.
Furthermore, the KMM is achieved through an attention mechanism, which allows
it to maintain the high resolution of features. Therefore, it can transfer rich
historical pose information to the current frame, which provides effective pose
information for locating occluded joints. Our approach achieves
state-of-the-art results on two standard video-based pose estimation
benchmarks. Moreover, the proposed KIMNet shows some robustness to the
occlusion, demonstrating the effectiveness of the proposed method.
- Abstract(参考訳): ビデオから人間のポーズを推定することは、人間とコンピュータの相互作用において重要である。
人間のポーズを正確に推定することで、ロボットは人間に適切な反応を与えることができる。
既存のアプローチのほとんどは、ビデオから時間的特徴を抽出するために光学フロー、RNN、CNNを使用している。
これらの試みの肯定的な結果にもかかわらず、ほとんどは、関節間の時間的相関を無視して、時間的次元に沿って、簡単に特徴を統合するだけである。
従来手法とは対照的に,異なるフレーム間での関節間の時間的相関を明示的にモデル化するドメインクロスアテンション機構に基づくKMM(プラグイン・アンド・プレイ・キネマティクス・モデリング・モジュール)を提案する。
具体的には、提案したKMMは、その時間的類似性を計算することによって、任意の2つの関節間の時間的相関をモデル化する。
このようにして、KMMは各関節の動きの手がかりを学習することができる。
運動手がかり(時間領域)と関節の歴史的位置(空間領域)を用いて、KMMは前もって現在のフレームにおける関節の初期位置を推測することができる。
また,KMMに基づくキネマティックス・モデリング・ネットワーク(KIMNet)を提案し,ポーズ特徴と関節の初期位置を組み合わせることで関節の最終位置を求める。
KIMNetは、関節間の時間的相関を明示的にモデル化することにより、現在の閉塞した関節を前モーメントのすべての関節に従って推測することができる。
さらに、KMMは注目機構によって達成され、高解像度の機能を維持することができる。
そのため、現在フレームにリッチな歴史的ポーズ情報を転送することができ、閉塞した関節の位置を特定する効果的なポーズ情報を提供する。
本手法は2つの標準ビデオベースポーズ推定ベンチマークで最先端の結果を得る。
さらに, 提案手法の有効性を示すとともに, 咬合に対するロバスト性を示す。
関連論文リスト
- Video-Based Human Pose Regression via Decoupled Space-Time Aggregation [0.5524804393257919]
そこで我々は,Asmapなどの中間表現をバイパスし,その代わりに入力を直接共同座標にマッピングする,効率的で効果的なビデオベースヒューマンポーズ回帰手法を開発した。
本手法は, 隣り合う関節の空間的依存性と各関節の時間的依存性を効率よく, 柔軟に利用することができる。
我々のアプローチは、最先端のヒートマップベースのマルチフレームヒューマンポーズ推定手法に匹敵するか、同等である。
論文 参考訳(メタデータ) (2024-03-29T02:26:22Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Multiscale Residual Learning of Graph Convolutional Sequence Chunks for
Human Motion Prediction [23.212848643552395]
時間的および空間的依存関係の学習による人間の動作予測のための新しい手法を提案する。
提案手法は,動作予測のためのシーケンス情報を効果的にモデル化し,他の手法よりも優れ,新しい最先端の手法を設定できる。
論文 参考訳(メタデータ) (2023-08-31T15:23:33Z) - Shuffled Autoregression For Motion Interpolation [53.61556200049156]
この作業は、モーションタスクのためのディープラーニングソリューションを提供することを目的としている。
本稿では,自己回帰を任意の(シャッフルされた)順序で生成するために拡張する,emphShuffled AutoRegressionと呼ばれる新しいフレームワークを提案する。
また,3つのステージを終端から終端の時空間運動変換器に組み込んだ依存グラフの構築手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T07:14:59Z) - Video Frame Interpolation with Densely Queried Bilateral Correlation [52.823751291070906]
Video Frame Interpolation (VFI) は、既存のフレーム間で既存の中間フレームを合成することを目的としている。
フローベースVFIアルゴリズムは、中間運動場を推定し、既存のフレームをワープする。
本稿では,DQBC(Densely Queried Bilateral correlation, DQBC)を提案する。
論文 参考訳(メタデータ) (2023-04-26T14:45:09Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Motion Prediction via Joint Dependency Modeling in Phase Space [40.54430409142653]
我々は、運動解剖学の明示的な事前知識を活用するために、新しい畳み込みニューラルモデルを導入する。
次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。
本手法は,大規模な3次元人体動作ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-01-07T08:30:01Z) - Relation-Based Associative Joint Location for Human Pose Estimation in
Videos [5.237054164442403]
我々は,関節間の連想関係を明確かつ自動でモデル化する軽量でプラグアンドプレイな関節関係抽出器 (JRE) を設計する。
JREは2つの関節の関係を柔軟に学習し、人間のポーズの豊かな空間構成を学習する。
そして、時間的意味連続性モデリングと組み合わせて、ビデオに基づく人間のポーズ推定のための関係に基づくPose Semantics Transfer Network (RPSTN)を提案する。
論文 参考訳(メタデータ) (2021-07-08T04:05:23Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。