論文の概要: UDE: A Unified Driving Engine for Human Motion Generation
- arxiv url: http://arxiv.org/abs/2211.16016v1
- Date: Tue, 29 Nov 2022 08:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:31:50.023542
- Title: UDE: A Unified Driving Engine for Human Motion Generation
- Title(参考訳): UDE:人間の運動生成のための統一運転エンジン
- Authors: Zixiang Zhou, Baoyuan Wang
- Abstract要約: UDEは、自然言語またはオーディオシーケンスから人間のモーションシーケンスを生成することができる最初の統合駆動エンジンである。
我々はHumanML3DciteGuo_2022_CVPRとAIST++citeli 2021learnベンチマークを用いて評価を行った。
- 参考スコア(独自算出の注目度): 16.32286289924454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating controllable and editable human motion sequences is a key
challenge in 3D Avatar generation. It has been labor-intensive to generate and
animate human motion for a long time until learning-based approaches have been
developed and applied recently. However, these approaches are still
task-specific or modality-specific\cite
{ahuja2019language2pose}\cite{ghosh2021synthesis}\cite{ferreira2021learning}\cite{li2021ai}.
In this paper, we propose ``UDE", the first unified driving engine that enables
generating human motion sequences from natural language or audio sequences (see
Fig.~\ref{fig:teaser}). Specifically, UDE consists of the following key
components: 1) a motion quantization module based on VQVAE that represents
continuous motion sequence as discrete latent code\cite{van2017neural}, 2) a
modality-agnostic transformer encoder\cite{vaswani2017attention} that learns to
map modality-aware driving signals to a joint space, and 3) a unified token
transformer (GPT-like\cite{radford2019language}) network to predict the
quantized latent code index in an auto-regressive manner. 4) a diffusion motion
decoder that takes as input the motion tokens and decodes them into motion
sequences with high diversity. We evaluate our method on
HumanML3D\cite{Guo_2022_CVPR} and AIST++\cite{li2021learn} benchmarks, and the
experiment results demonstrate our method achieves state-of-the-art
performance. Project website: \url{https://github.com/zixiangzhou916/UDE/
- Abstract(参考訳): 制御可能で編集可能な人間のモーションシーケンスを生成することは、3Dアバター生成の重要な課題である。
近年, 学習に基づくアプローチが開発され, 適用されるまで, 人間の動作の生成とアニメーション化は, 労働集約的に行われてきた。
しかし、これらのアプローチは依然としてタスク固有またはモダリティ特異的な\cite {ahuja2019language2pose}\cite{ghosh2021 synthesis}\cite{ferreira2021learning}\cite{li2021ai}である。
本稿では,自然言語や音声のシーケンスから人間の動作シーケンスを生成するための,最初の統合駆動エンジンである `UDE を提案する(図参照)。
~\ref{fig:teaser})。
具体的には、UDEは以下のキーコンポーネントから構成される。
1) vqvaeに基づく動き量子化モジュールは,連続的な動き列を離散的潜在コードとして表現する。
2)モダリティ非依存なトランスフォーマーエンコーダ\cite{vaswani2017attention}は、モダリティを認識できる駆動信号をジョイント空間にマッピングすることを学び、そして、
3) 量子化潜在コードインデックスを自動回帰的に予測する統一トークントランスフォーマー(GPT-like\cite{radford2019 languages})ネットワーク。
4) 移動トークンを入力として、高度に多様性のある動きシーケンスに復号する拡散運動復号器。
我々は,HumanML3D\cite{Guo_2022_CVPR} と AIST++\cite{li2021learn} ベンチマークを用いて評価を行い,本手法が最先端の性能を達成することを示す実験結果を得た。
プロジェクトウェブサイト: \url{https://github.com/zixiangzhou916/UDE/
関連論文リスト
- Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Action-Conditioned 3D Human Motion Synthesis with Transformer VAE [44.523477804533364]
我々は、現実的で多様な人間の動き系列の行動条件生成の問題に取り組む。
動作シーケンスを完了または拡張する手法とは対照的に、このタスクは初期ポーズやシーケンスを必要としない。
生成的変分オートエンコーダを訓練することにより、人間の動きに対する行動認識の潜在表現を学ぶ。
論文 参考訳(メタデータ) (2021-04-12T17:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。