論文の概要: CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion
- arxiv url: http://arxiv.org/abs/2305.12554v3
- Date: Mon, 19 Aug 2024 16:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 04:36:46.720696
- Title: CoMusion: Towards Consistent Stochastic Human Motion Prediction via Motion Diffusion
- Title(参考訳): CoMusion: 動き拡散による連続確率的人間の動き予測を目指して
- Authors: Jiarui Sun, Girish Chowdhary,
- Abstract要約: 本稿では,単一段階の終端拡散型HMPフレームワークであるCoMusionを提案する。
CoMusionは、スムーズな将来のポーズ予測性能が空間予測性能を改善するという洞察から着想を得ている。
提案手法はTransformer-GCNモジュール設計と分散スケジューラによって促進され,精度,現実性,一貫した動作を予測する。
- 参考スコア(独自算出の注目度): 6.862357145175449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic Human Motion Prediction (HMP) aims to predict multiple possible future human pose sequences from observed ones. Most prior works learn motion distributions through encoding-decoding in the latent space, which does not preserve motion's spatial-temporal structure. While effective, these methods often require complex, multi-stage training and yield predictions that are inconsistent with the provided history and can be physically unrealistic. To address these issues, we propose CoMusion, a single-stage, end-to-end diffusion-based stochastic HMP framework. CoMusion is inspired from the insight that a smooth future pose initialization improves prediction performance, a strategy not previously utilized in stochastic models but evidenced in deterministic works. To generate such initialization, CoMusion's motion predictor starts with a Transformer-based network for initial reconstruction of corrupted motion. Then, a graph convolutional network (GCN) is employed to refine the prediction considering past observations in the discrete cosine transformation (DCT) space. Our method, facilitated by the Transformer-GCN module design and a proposed variance scheduler, excels in predicting accurate, realistic, and consistent motions, while maintaining appropriate diversity. Experimental results on benchmark datasets demonstrate that CoMusion surpasses prior methods across metrics, while demonstrating superior generation quality. Our Code is released at https://github.com/jsun57/CoMusion/ .
- Abstract(参考訳): 確率的人間の動き予測(HMP)は、観測されたものから複数の将来の人間のポーズシーケンスを予測することを目的としている。
ほとんどの先行研究は、動きの時空間構造を保存しない潜在空間における符号化復号により、動きの分布を学習する。
効果はあるものの、これらの手法は複雑で多段階の訓練を必要とし、提供された歴史と矛盾せず、物理的に非現実的な予測を必要とする。
このような問題に対処するため,我々は単一段階の終端拡散に基づく確率的HMPフレームワークであるCoMusionを提案する。
CoMusionは、スムーズな未来が予測性能を改善するという洞察から着想を得ている。
このような初期化を生成するために、CoMusionのモーション予測器はTransformerベースのネットワークから始まり、破損したモーションを初期再構成する。
次に、離散コサイン変換(DCT)空間における過去の観測を考慮し、グラフ畳み込みネットワーク(GCN)を用いて予測を洗練させる。
提案手法はTransformer-GCNモジュール設計と分散スケジューラによって促進され,精度,現実性,一貫した動作の予測に優れ,かつ適切な多様性を維持している。
ベンチマークデータセットの実験結果は、CoMusionが従来のメソッドよりも優れた生成品質を示しながら、メトリクスを横断していることを示している。
私たちのコードはhttps://github.com/jsun57/CoMusion/でリリースされています。
関連論文リスト
- Physics-guided Active Sample Reweighting for Urban Flow Prediction [75.24539704456791]
都市フロー予測は、バス、タクシー、ライド駆動モデルといった交通サービスのスループットを見積もる、微妙な時間的モデリングである。
最近の予測解は、物理学誘導機械学習(PGML)の概念による改善をもたらす。
我々は、PN(atized Physics-guided Network)を開発し、P-GASR(Physical-guided Active Sample Reweighting)を提案する。
論文 参考訳(メタデータ) (2024-07-18T15:44:23Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - An Energy-Based Prior for Generative Saliency [62.79775297611203]
本稿では,情報的エネルギーベースモデルを事前分布として採用する,新たな生成正当性予測フレームワークを提案する。
生成サリエンシモデルを用いて,画像から画素単位の不確実性マップを得ることができ,サリエンシ予測におけるモデル信頼度を示す。
実験結果から, エネルギーベース先行モデルを用いた生成塩分率モデルでは, 精度の高い塩分率予測だけでなく, 人間の知覚と整合した信頼性の高い不確実性マップを実現できることが示された。
論文 参考訳(メタデータ) (2022-04-19T10:51:00Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Learning to Predict Diverse Human Motions from a Single Image via
Mixture Density Networks [9.06677862854201]
本研究では,混合密度ネットワーク(MDN)モデルを用いて,単一画像から将来の人間の動きを予測する新しい手法を提案する。
MDNのマルチモーダルな性質は、既存のディープヒューマンモーション予測アプローチとは対照的に、様々な将来のモーション仮説の生成を可能にしている。
訓練されたモデルでは、入力として画像を直接取り、与えられた条件を満たす複数の可視運動を生成する。
論文 参考訳(メタデータ) (2021-09-13T08:49:33Z) - Generating Smooth Pose Sequences for Diverse Human Motion Prediction [90.45823619796674]
本稿では,多様な動作予測と制御可能な動作予測のための統合された深部生成ネットワークを提案する。
標準ベンチマークデータセットであるHuman3.6MとHumanEva-Iの2つの実験は、我々のアプローチがサンプルの多様性と精度の両方において最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2021-08-19T00:58:00Z) - Multitask Non-Autoregressive Model for Human Motion Prediction [33.98939145212708]
非auToregressive Model (NAT) は、文脈エンコーダと位置エンコードモジュールと同様に、完全な非自己回帰復号方式で提案される。
提案手法はHuman3.6MとCMU-Mocapのベンチマークで評価され,最先端の自己回帰手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-13T15:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。