論文の概要: CoCoGesture: Toward Coherent Co-speech 3D Gesture Generation in the Wild
- arxiv url: http://arxiv.org/abs/2405.16874v2
- Date: Thu, 28 Nov 2024 07:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:16:29.869985
- Title: CoCoGesture: Toward Coherent Co-speech 3D Gesture Generation in the Wild
- Title(参考訳): CoCoGesture: 野生におけるコヒーレントな3Dジェスチャー生成を目指して
- Authors: Xingqun Qi, Hengyuan Zhang, Yatian Wang, Jiahao Pan, Chen Liu, Peng Li, Xiaowei Chi, Mengfei Li, Wei Xue, Shanghang Zhang, Wenhan Luo, Qifeng Liu, Yike Guo,
- Abstract要約: CoCoGestureは、目に見えない人間の音声プロンプトから鮮明で多様なジェスチャー合成を可能にする新しいフレームワークである。
私たちの重要な洞察は、カスタム設計のトレーニングパラダイムに基づいています。
提案するCoCoGesture は,ゼロショット音声・ジェスチャー生成における最先端手法よりも優れる。
- 参考スコア(独自算出の注目度): 42.09889990430308
- License:
- Abstract: Deriving co-speech 3D gestures has seen tremendous progress in virtual avatar animation. Yet, the existing methods often produce stiff and unreasonable gestures with unseen human speech inputs due to the limited 3D speech-gesture data. In this paper, we propose CoCoGesture, a novel framework enabling vivid and diverse gesture synthesis from unseen human speech prompts. Our key insight is built upon the custom-designed pretrain-fintune training paradigm. At the pretraining stage, we aim to formulate a large generalizable gesture diffusion model by learning the abundant postures manifold. Therefore, to alleviate the scarcity of 3D data, we first construct a large-scale co-speech 3D gesture dataset containing more than 40M meshed posture instances across 4.3K speakers, dubbed GES-X. Then, we scale up the large unconditional diffusion model to 1B parameters and pre-train it to be our gesture experts. At the finetune stage, we present the audio ControlNet that incorporates the human voice as condition prompts to guide the gesture generation. Here, we construct the audio ControlNet through a trainable copy of our pre-trained diffusion model. Moreover, we design a novel Mixture-of-Gesture-Experts (MoGE) block to adaptively fuse the audio embedding from the human speech and the gesture features from the pre-trained gesture experts with a routing mechanism. Such an effective manner ensures audio embedding is temporal coordinated with motion features while preserving the vivid and diverse gesture generation. Extensive experiments demonstrate that our proposed CoCoGesture outperforms the state-of-the-art methods on the zero-shot speech-to-gesture generation. The dataset will be publicly available at: https://mattie-e.github.io/GES-X/
- Abstract(参考訳): 3Dジェスチャーの合成は、仮想アバターアニメーションの大幅な進歩を見せている。
しかし, 従来の手法では, 3次元音声のジェスチャーデータに制限があるため, 目立たない人間の音声入力による頑健で不合理なジェスチャーがしばしば発生する。
本稿では,未確認の音声プロンプトから鮮明かつ多様なジェスチャー合成を可能にする新しいフレームワークであるCoCoGestureを提案する。
私たちの重要な洞察は、カスタム設計のトレーニングパラダイムに基づいています。
事前学習段階では、豊富な姿勢多様体を学習することにより、大規模な一般化可能なジェスチャー拡散モデルを定式化することを目的とする。
したがって、3Dデータの不足を軽減するため、まず、GES-Xと呼ばれる4.3K話者に40M以上のメッシュ化された姿勢インスタンスを含む大規模3Dジェスチャーデータセットを構築した。
そして, 大規模非条件拡散モデルを1Bパラメータにスケールアップし, ジェスチャーの専門家として事前学習する。
微妙な段階では、人間の声を条件として組み込んだ音声制御ネットがジェスチャー生成を誘導する。
本稿では,事前学習した拡散モデルのトレーニング可能なコピーを用いて音声制御ネットを構築する。
さらに、人間の音声から埋め込まれた音声を適応的に融合させる新しいMixture-of-Gesture-Experts (MoGE)ブロックを設計する。
このような効果的な方法では、鮮明で多様なジェスチャー生成を保ちながら、音声の埋め込みが動作特徴と時間的調整されることが保証される。
広汎な実験により,提案したCoCoGestureは,ゼロショット音声・ジェスチャー生成における最先端手法よりも優れていた。
データセットは、https://mattie-e.github.io/GES-X/で公開される。
関連論文リスト
- EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Real-time Gesture Animation Generation from Speech for Virtual Human
Interaction [9.453554184019108]
音声から直接ジェスチャーを合成するリアルタイムシステムを提案する。
データ駆動型アプローチは、ジェネレーティブ・アドバイサル・ニューラル・ニューラルネットワークに基づいている。
モデルは2秒間の連続的な音声入力チャンクを受信することで、話者固有のジェスチャーを生成する。
論文 参考訳(メタデータ) (2022-08-05T15:56:34Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Speech2Video Synthesis with 3D Skeleton Regularization and Expressive
Body Poses [36.00309828380724]
本稿では,与えられた音声を特定の人物の写実的な発話ビデオに変換する新しい手法を提案する。
我々は、リカレントニューラルネットワーク(RNN)を用いて、まず音声シーケンスから3Dスケルトンの動きを生成する。
骨格運動を現実的で表現力のあるものにするために,人工的な3次元人骨の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。
論文 参考訳(メタデータ) (2020-07-17T19:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。