論文の概要: SoMoFormer: Multi-Person Pose Forecasting with Transformers
- arxiv url: http://arxiv.org/abs/2208.14023v1
- Date: Tue, 30 Aug 2022 06:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:01:29.943716
- Title: SoMoFormer: Multi-Person Pose Forecasting with Transformers
- Title(参考訳): SoMoFormer: トランスフォーマーを使ったマルチパーソンポーズ予測
- Authors: Edward Vendrow, Satyajit Kumar, Ehsan Adeli, Hamid Rezatofighi
- Abstract要約: マルチパーソン3Dポーズ予測のためのソーシャルモーショントランスフォーマー(SoMoFormer)を提案する。
我々のトランスアーキテクチャは、人間の動作入力を時系列ではなくジョイントシーケンスとして一意にモデル化する。
この問題の修正により、SoMoFormerは自然に、シーン内のすべての人の関節を入力クエリとして使用することで、マルチパーソンシーンに拡張できることを示す。
- 参考スコア(独自算出の注目度): 15.617263162155062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human pose forecasting is a challenging problem involving complex human body
motion and posture dynamics. In cases that there are multiple people in the
environment, one's motion may also be influenced by the motion and dynamic
movements of others. Although there are several previous works targeting the
problem of multi-person dynamic pose forecasting, they often model the entire
pose sequence as time series (ignoring the underlying relationship between
joints) or only output the future pose sequence of one person at a time. In
this paper, we present a new method, called Social Motion Transformer
(SoMoFormer), for multi-person 3D pose forecasting. Our transformer
architecture uniquely models human motion input as a joint sequence rather than
a time sequence, allowing us to perform attention over joints while predicting
an entire future motion sequence for each joint in parallel. We show that with
this problem reformulation, SoMoFormer naturally extends to multi-person scenes
by using the joints of all people in a scene as input queries. Using learned
embeddings to denote the type of joint, person identity, and global position,
our model learns the relationships between joints and between people, attending
more strongly to joints from the same or nearby people. SoMoFormer outperforms
state-of-the-art methods for long-term motion prediction on the SoMoF benchmark
as well as the CMU-Mocap and MuPoTS-3D datasets. Code will be made available
after publication.
- Abstract(参考訳): 人間のポーズ予測は、複雑な人体の動きと姿勢のダイナミクスを伴う困難な問題である。
環境に複数の人がいる場合、人の動きは他の人の動きや動的動きに影響される可能性がある。
マルチパーソン・ダイナミック・ポーズ予測の問題に焦点をあてた以前の研究はいくつかあるが、それらはしばしば、ポーズ・シーケンス全体を時系列としてモデル化する(関節間の基礎的な関係を無視している)。
本稿では,多人数3次元ポーズ予測のためのソーシャルモーショントランスフォーマー(somoformer)という新しい手法を提案する。
私たちのトランスフォーマーアーキテクチャは、人間の動作入力を時系列ではなくジョイントシーケンスとしてモデル化し、各ジョイントに対する将来の動作シーケンス全体を並列に予測しながらジョイントに注意を向けることができます。
この課題の修正により,ソモフォーマーはシーン内のすべての人々のジョイントを入力クエリとして使用することで,自然に多人数場面に拡張できることを示した。
学習した埋め込みを、関節の種類、個人アイデンティティ、グローバルな位置を表すために使用し、我々のモデルは、関節と人の間の関係を学習し、同じまたは近くの人々の関節により強く参加する。
SoMoFormerは、CMU-MocapとMuPoTS-3Dデータセットと同様に、SoMoFベンチマークで長期動作予測のための最先端の手法より優れている。
コードは公開後利用可能になる。
関連論文リスト
- ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - A Unified Masked Autoencoder with Patchified Skeletons for Motion Synthesis [14.347147051922175]
本稿では,UNIMASK-Mと呼ばれる新しいタスク独立モデルを提案する。
Vision TransformersVi (Ts)にインスパイアされた私たちのUNIMASK-Mモデルは、人間の動きに存在する時間的関係を活用するために、人間のポーズを身体の一部に分解する。
実験の結果,Human3.6Mデータセット上での人間の動きの予測に成功していることがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:39:44Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - DMMGAN: Diverse Multi Motion Prediction of 3D Human Joints using
Attention-Based Generative Adverserial Network [9.247294820004143]
本稿では,多種多様な人間の動きを予測するためのトランスフォーマーに基づく生成モデルを提案する。
本モデルでは、まず、股関節に対する身体の姿勢を予測し、次に、textitHip予測モジュールが、予測された各ポーズフレームに対する股関節運動の軌跡を予測する。
本研究では,ヒトの動作予測において,股関節運動を伴う多動将来の軌跡を予測しながら,最先端の動作予測に優れることを示す。
論文 参考訳(メタデータ) (2022-09-13T23:22:33Z) - SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion
Prediction [10.496276090281825]
本稿では,ソーシャル・アウェア・モーション・トランスフォーマー(SoMoFormer)を提案する。
SoMoFormerは、変位軌道空間のサブシーケンスから運動特徴を抽出し、各個人に対する局所的およびグローバルなポーズダイナミクスを学習する。
さらに,SoMoFormerに新たなソーシャル・アウェア・アテンション・アテンション・メカニズムを考案し,動的表現をさらに最適化し,相互依存を同時に捉える。
論文 参考訳(メタデータ) (2022-08-19T08:57:34Z) - Motion Prediction via Joint Dependency Modeling in Phase Space [40.54430409142653]
我々は、運動解剖学の明示的な事前知識を活用するために、新しい畳み込みニューラルモデルを導入する。
次に,個々の関節機能間の暗黙的関係を学習するグローバル最適化モジュールを提案する。
本手法は,大規模な3次元人体動作ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2022-01-07T08:30:01Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Perpetual Motion: Generating Unbounded Human Motion [61.40259979876424]
我々は、長期的な予測、つまり、人間の動きの長いシーケンスを生成することに焦点を当てる。
本研究では,非決定論的,テキストに変化する,永続的な人間の動きを生成するモデルを提案する。
我々は、これをホワイトノイズガウス過程のKL分岐の重み付き関数を用いて訓練し、潜時シーケンスの時間依存性を許容する。
論文 参考訳(メタデータ) (2020-07-27T21:50:36Z) - Socially and Contextually Aware Human Motion and Pose Forecasting [48.083060946226]
本研究では,人間の動作(あるいは骨格ポーズ)と体骨格のポーズ予測の両課題に対処するための新しい枠組みを提案する。
我々は,この予測課題における重要な手がかりとして,シーンと社会的文脈の両方を取り入れることを検討する。
提案手法は,2つのソーシャルデータセットのベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-07-14T06:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。