論文の概要: A Unified Framework for Multimodal, Multi-Part Human Motion Synthesis
- arxiv url: http://arxiv.org/abs/2311.16471v1
- Date: Tue, 28 Nov 2023 04:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:26:22.591003
- Title: A Unified Framework for Multimodal, Multi-Part Human Motion Synthesis
- Title(参考訳): マルチモーダル・マルチパート動作合成のための統一フレームワーク
- Authors: Zixiang Zhou, Yu Wan, Baoyuan Wang
- Abstract要約: 我々は,マルチモーダル(テキスト,音楽,音声)とマルチパート(手,胴体)のヒューマンモーション生成を融合する,密着的でスケーラブルなアプローチを導入する。
本手法は,制御信号のモダリティに基づく特殊コードブックから,多モード動作生成課題をトークン予測タスクとして表現する。
- 参考スコア(独自算出の注目度): 17.45562922442149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field has made significant progress in synthesizing realistic human
motion driven by various modalities. Yet, the need for different methods to
animate various body parts according to different control signals limits the
scalability of these techniques in practical scenarios. In this paper, we
introduce a cohesive and scalable approach that consolidates multimodal (text,
music, speech) and multi-part (hand, torso) human motion generation. Our
methodology unfolds in several steps: We begin by quantizing the motions of
diverse body parts into separate codebooks tailored to their respective
domains. Next, we harness the robust capabilities of pre-trained models to
transcode multimodal signals into a shared latent space. We then translate
these signals into discrete motion tokens by iteratively predicting subsequent
tokens to form a complete sequence. Finally, we reconstruct the continuous
actual motion from this tokenized sequence. Our method frames the multimodal
motion generation challenge as a token prediction task, drawing from
specialized codebooks based on the modality of the control signal. This
approach is inherently scalable, allowing for the easy integration of new
modalities. Extensive experiments demonstrated the effectiveness of our design,
emphasizing its potential for broad application.
- Abstract(参考訳): 様々なモダリティによって駆動される現実的な人間の動きの合成において、この分野は大きな進歩を遂げた。
しかし、様々な制御信号に従って様々な身体部位をアニメーションする異なる方法の必要性は、現実的なシナリオにおいてこれらの手法のスケーラビリティを制限している。
本稿では,マルチモーダル(テキスト,音楽,音声)とマルチパート(ハンド,トルソ)のヒューマンモーション生成を統合する,凝集的でスケーラブルなアプローチを提案する。
私たちは、様々な身体部分の動きを、それぞれのドメインに合わせた別々のコードブックに定量化することから始めます。
次に,事前学習モデルのロバスト性を利用して,マルチモーダル信号の共有潜在空間への変換を行う。
次に、これらの信号を離散的な動きトークンに変換し、その後のトークンを反復的に予測して完全なシーケンスを形成する。
最後に、このトークン化されたシーケンスから連続的な実際の動きを再構成する。
本手法は,制御信号のモダリティに基づいて,専用コードブックから抽出したトークン予測タスクとして,マルチモーダルモーション生成課題をフレーム化する。
このアプローチは本質的にスケーラブルであり、新しいモダリティを簡単に統合できる。
広範な実験により,我々の設計の有効性を実証し,幅広い応用への可能性を強調した。
関連論文リスト
- Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。
このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文 参考訳(メタデータ) (2024-11-25T15:36:29Z) - Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers [13.665279127648658]
本研究は,複数モーダルに条件付き全体動き列を同時に生成する新しい動き生成フレームワークを提案する。
空間的注意機構とトークン批評家を統合することで、生成した動きの一貫性と自然性を確保することができる。
論文 参考訳(メタデータ) (2024-09-03T04:19:27Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models [22.044020889631188]
マルチモーダル統合によるジェスチャーの多様性とリズムを向上させるMambaTalkを紹介する。
我々の手法は最先端のモデルの性能と一致するか超えている。
論文 参考訳(メタデータ) (2024-03-14T15:10:54Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Recurrent Transformer Variational Autoencoders for Multi-Action Motion
Synthesis [17.15415641710113]
任意の長さの多動作人間の動作列を合成する問題を考察する。
既存のアプローチでは、単一のアクションシナリオでモーションシーケンス生成をマスターしているが、多アクションおよび任意の長さのシーケンスに一般化できない。
本稿では,リカレントトランスの豊かさと条件付き変分オートエンコーダの生成豊かさを活用する,新しい効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-14T10:40:16Z) - Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。
この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。
実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2022-05-25T18:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。