論文の概要: Learning Human Kinematics by Modeling Temporal Correlations between
Joints for Video-based Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2207.10971v1
- Date: Fri, 22 Jul 2022 09:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:08:18.333969
- Title: Learning Human Kinematics by Modeling Temporal Correlations between
Joints for Video-based Human Pose Estimation
- Title(参考訳): ビデオに基づくヒューマンポーズ推定のための関節の時間相関のモデル化による人体運動学の学習
- Authors: Yonghao Dang, Jianqin Yin, Shaojie Zhang, Jiping Liu, Yanzhu Hu
- Abstract要約: ビデオから人間のポーズを推定することは、人間とコンピュータの相互作用において重要である。
既存のアプローチのほとんどは、ビデオから時間的特徴を抽出するために光学フロー、RNN、またはCNNを使用している。
本稿では,ドメインクロスアテンション機構に基づくプラグアンドプレイキネマティクスモデリングモジュールを提案する。
- 参考スコア(独自算出の注目度): 4.265467042008983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating human poses from videos is critical in human-computer interaction.
By precisely estimating human poses, the robot can provide an appropriate
response to the human. Most existing approaches use the optical flow, RNNs, or
CNNs to extract temporal features from videos. Despite the positive results of
these attempts, most of them only straightforwardly integrate features along
the temporal dimension, ignoring temporal correlations between joints. In
contrast to previous methods, we propose a plug-and-play kinematics modeling
module (KMM) based on the domain-cross attention mechanism to model the
temporal correlation between joints across different frames explicitly.
Specifically, the proposed KMM models the temporal correlation between any two
joints by calculating their temporal similarity. In this way, KMM can learn the
motion cues of each joint. Using the motion cues (temporal domain) and
historical positions of joints (spatial domain), KMM can infer the initial
positions of joints in the current frame in advance. In addition, we present a
kinematics modeling network (KIMNet) based on the KMM for obtaining the final
positions of joints by combining pose features and initial positions of joints.
By explicitly modeling temporal correlations between joints, KIMNet can infer
the occluded joints at present according to all joints at the previous moment.
Furthermore, the KMM is achieved through an attention mechanism, which allows
it to maintain the high resolution of features. Therefore, it can transfer rich
historical pose information to the current frame, which provides effective pose
information for locating occluded joints. Our approach achieves
state-of-the-art results on two standard video-based pose estimation
benchmarks. Moreover, the proposed KIMNet shows some robustness to the
occlusion, demonstrating the effectiveness of the proposed method.
- Abstract(参考訳): ビデオから人間のポーズを推定することは、人間とコンピュータの相互作用において重要である。
人間のポーズを正確に推定することで、ロボットは人間に適切な反応を与えることができる。
既存のアプローチのほとんどは、ビデオから時間的特徴を抽出するために光学フロー、RNN、CNNを使用している。
これらの試みの肯定的な結果にもかかわらず、ほとんどは、関節間の時間的相関を無視して、時間的次元に沿って、簡単に特徴を統合するだけである。
従来手法とは対照的に,異なるフレーム間での関節間の時間的相関を明示的にモデル化するドメインクロスアテンション機構に基づくKMM(プラグイン・アンド・プレイ・キネマティクス・モデリング・モジュール)を提案する。
具体的には、提案したKMMは、その時間的類似性を計算することによって、任意の2つの関節間の時間的相関をモデル化する。
このようにして、KMMは各関節の動きの手がかりを学習することができる。
運動手がかり(時間領域)と関節の歴史的位置(空間領域)を用いて、KMMは前もって現在のフレームにおける関節の初期位置を推測することができる。
また,KMMに基づくキネマティックス・モデリング・ネットワーク(KIMNet)を提案し,ポーズ特徴と関節の初期位置を組み合わせることで関節の最終位置を求める。
KIMNetは、関節間の時間的相関を明示的にモデル化することにより、現在の閉塞した関節を前モーメントのすべての関節に従って推測することができる。
さらに、KMMは注目機構によって達成され、高解像度の機能を維持することができる。
そのため、現在フレームにリッチな歴史的ポーズ情報を転送することができ、閉塞した関節の位置を特定する効果的なポーズ情報を提供する。
本手法は2つの標準ビデオベースポーズ推定ベンチマークで最先端の結果を得る。
さらに, 提案手法の有効性を示すとともに, 咬合に対するロバスト性を示す。
関連論文リスト
- SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition [25.341177384559174]
我々はSkateFormer(SkateFormer)と呼ばれる新しい手法を提案する。
SkateFormerは、さまざまなタイプの骨格と時間の関係に基づいて関節とフレームを分割する。
アクション適応的な方法で、アクション認識に不可欠なキージョイントやフレームに選択的にフォーカスすることができる。
論文 参考訳(メタデータ) (2024-03-14T15:55:53Z) - A Decoupled Spatio-Temporal Framework for Skeleton-based Action
Segmentation [89.86345494602642]
既存の手法は、弱い時間的モデリング能力に制限されている。
この問題に対処するために、Decoupled Scoupled Framework (DeST)を提案する。
DeSTは計算量が少なく、現在の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-10T09:11:39Z) - Spatio-temporal MLP-graph network for 3D human pose estimation [8.267311047244881]
グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。
暗黙の伝搬フェアリングを用いたグラフフィルタリングにより得られる新しい重み付きヤコビ特徴則を導入する。
また, 関節間の関係を学習するために, 隣接変調を用いた。
論文 参考訳(メタデータ) (2023-08-29T14:00:55Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Motion Prediction via Joint Dependency Modeling in Phase Space [40.54430409142653]
我々は、運動解剖学の明示的な事前知識を活用するために、新しい畳み込みニューラルモデルを導入する。
次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。
本手法は,大規模な3次元人体動作ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-01-07T08:30:01Z) - Relation-Based Associative Joint Location for Human Pose Estimation in
Videos [5.237054164442403]
我々は,関節間の連想関係を明確かつ自動でモデル化する軽量でプラグアンドプレイな関節関係抽出器 (JRE) を設計する。
JREは2つの関節の関係を柔軟に学習し、人間のポーズの豊かな空間構成を学習する。
そして、時間的意味連続性モデリングと組み合わせて、ビデオに基づく人間のポーズ推定のための関係に基づくPose Semantics Transfer Network (RPSTN)を提案する。
論文 参考訳(メタデータ) (2021-07-08T04:05:23Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。