論文の概要: Global-local Motion Transformer for Unsupervised Skeleton-based Action
Learning
- arxiv url: http://arxiv.org/abs/2207.06101v1
- Date: Wed, 13 Jul 2022 10:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 12:27:01.198535
- Title: Global-local Motion Transformer for Unsupervised Skeleton-based Action
Learning
- Title(参考訳): 教師なし骨格学習のためのグローバル局所運動変換器
- Authors: Boeun Kim, Hyung Jin Chang, Jungho Kim, and Jin Young Choi
- Abstract要約: 骨格運動系列の教師なし学習のための新しいトランスフォーマーモデルを提案する。
提案モデルでは, 関節の局所力学を学習し, 動き列から大域的文脈を捉える。
- 参考スコア(独自算出の注目度): 23.051184131833292
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a new transformer model for the task of unsupervised learning of
skeleton motion sequences. The existing transformer model utilized for
unsupervised skeleton-based action learning is learned the instantaneous
velocity of each joint from adjacent frames without global motion information.
Thus, the model has difficulties in learning the attention globally over
whole-body motions and temporally distant joints. In addition, person-to-person
interactions have not been considered in the model. To tackle the learning of
whole-body motion, long-range temporal dynamics, and person-to-person
interactions, we design a global and local attention mechanism, where, global
body motions and local joint motions pay attention to each other. In addition,
we propose a novel pretraining strategy, multi-interval pose displacement
prediction, to learn both global and local attention in diverse time ranges.
The proposed model successfully learns local dynamics of the joints and
captures global context from the motion sequences. Our model outperforms
state-of-the-art models by notable margins in the representative benchmarks.
Codes are available at https://github.com/Boeun-Kim/GL-Transformer.
- Abstract(参考訳): 本研究では,骨格運動列の教師なし学習タスクのための新しいトランスフォーマーモデルを提案する。
教師なし骨格に基づく動作学習に使用される既存のトランスフォーマーモデルは,グローバルな動き情報のない隣接フレームから各関節の瞬時速度を学習する。
したがって、このモデルは全身運動や時間的に離れた関節よりも、世界的に注意をひくことが困難である。
また,このモデルでは対人インタラクションは考慮されていない。
本研究では,全身運動,長距離時間動学,対人インタラクションの学習に取り組み,グローバル・ローカルな注意機構を設計し,グローバルな身体運動と局所的な関節運動が互いに注意を払っている。
さらに,多様な時間帯におけるグローバル・ローカル両方の注意を学習するための,新しい事前学習戦略であるマルチインターバルポーズ変位予測を提案する。
提案モデルでは, 関節の局所力学を学習し, 動き列から大域的文脈を捉える。
我々のモデルは、代表ベンチマークで顕著なマージンで最先端モデルより優れています。
コードはhttps://github.com/Boeun-Kim/GL-Transformerで入手できる。
関連論文リスト
- Interactive incremental learning of generalizable skills with local trajectory modulation [14.416251854298409]
軌道分布の局所的および大域的変調を同時に活用するインタラクティブな模倣学習フレームワークを提案する。
提案手法では, インクリメンタルかつインタラクティブに, 1) モデル精度の向上, 2) 実行中のタスクに新しいオブジェクトの追加,3) デモが提供されていない領域にスキルを拡大する。
論文 参考訳(メタデータ) (2024-09-09T14:22:19Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Joint-Motion Mutual Learning for Pose Estimation in Videos [21.77871402339573]
ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。
最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。
ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-05T07:37:55Z) - Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation [52.87672306545577]
既存の動き生成法は主に大域運動の直接合成に焦点を当てている。
本研究では,局所動作を微粒化制御信号として利用することにより,グローバルな動き生成を容易にする局所動作誘導型動き拡散モデルを提案する。
本手法は,様々な局所動作と連続誘導重み調整をシームレスに組み合わせる柔軟性を提供する。
論文 参考訳(メタデータ) (2024-07-15T08:35:00Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。
GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。
運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文 参考訳(メタデータ) (2023-06-29T07:22:20Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion
Prediction [10.496276090281825]
本稿では,ソーシャル・アウェア・モーション・トランスフォーマー(SoMoFormer)を提案する。
SoMoFormerは、変位軌道空間のサブシーケンスから運動特徴を抽出し、各個人に対する局所的およびグローバルなポーズダイナミクスを学習する。
さらに,SoMoFormerに新たなソーシャル・アウェア・アテンション・アテンション・メカニズムを考案し,動的表現をさらに最適化し,相互依存を同時に捉える。
論文 参考訳(メタデータ) (2022-08-19T08:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。