論文の概要: Towards Variable and Coordinated Holistic Co-Speech Motion Generation
- arxiv url: http://arxiv.org/abs/2404.00368v2
- Date: Mon, 15 Apr 2024 11:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 20:00:41.596716
- Title: Towards Variable and Coordinated Holistic Co-Speech Motion Generation
- Title(参考訳): 可変・コーディネートされた同音運動生成に向けて
- Authors: Yifei Liu, Qiong Cao, Yandong Wen, Huaiguang Jiang, Changxing Ding,
- Abstract要約: 本稿では,3次元アバターの音声合成におけるライフライクな音声合成の問題点について述べる。
ProbTalkは,音声における顔,手,体の動きを協調的にモデル化する統合確率的フレームワークである。
- 参考スコア(独自算出の注目度): 21.244719987338243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of generating lifelike holistic co-speech motions for 3D avatars, focusing on two key aspects: variability and coordination. Variability allows the avatar to exhibit a wide range of motions even with similar speech content, while coordination ensures a harmonious alignment among facial expressions, hand gestures, and body poses. We aim to achieve both with ProbTalk, a unified probabilistic framework designed to jointly model facial, hand, and body movements in speech. ProbTalk builds on the variational autoencoder (VAE) architecture and incorporates three core designs. First, we introduce product quantization (PQ) to the VAE, which enriches the representation of complex holistic motion. Second, we devise a novel non-autoregressive model that embeds 2D positional encoding into the product-quantized representation, thereby preserving essential structure information of the PQ codes. Last, we employ a secondary stage to refine the preliminary prediction, further sharpening the high-frequency details. Coupling these three designs enables ProbTalk to generate natural and diverse holistic co-speech motions, outperforming several state-of-the-art methods in qualitative and quantitative evaluations, particularly in terms of realism. Our code and model will be released for research purposes at https://feifeifeiliu.github.io/probtalk/.
- Abstract(参考訳): 本稿では,3次元アバターのライフライクな音声合成による音声合成の課題に対処し,可変性と協調性という2つの重要な側面に着目した。
可変性により、アバターは類似した音声内容であっても幅広い動きを見せることができ、コーディネーションによって表情、手振り、身体のポーズの調和が保証される。
ProbTalkは,音声における顔,手,体の動きを協調的にモデル化する統合確率的フレームワークである。
ProbTalkは可変オートエンコーダ(VAE)アーキテクチャ上に構築され、3つのコア設計が組み込まれている。
まず、VAEに積量子化(PQ)を導入し、複素全体運動の表現を豊かにする。
第二に、2次元位置符号化を製品量子化表現に組み込んだ新しい非自己回帰モデルを提案し、それによってPQ符号の基本構造情報を保存する。
最後に、予備予測を洗練させるために第2段階を使用し、高周波の詳細をさらに鮮明にする。
これら3つの設計を結合することにより、ProbTalkは自然で多様な音声の合成を可能とし、質的かつ定量的な評価において、特にリアリズムの観点から、いくつかの最先端の手法よりも優れている。
私たちのコードとモデルは、https://feifeifeiliu.github.io/probtalk/で研究目的でリリースされます。
関連論文リスト
- Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication [17.294279444027563]
本稿では,人間のコミュニケーションに焦点をあてた革新的なタスクを紹介し,話者と聴取者の両方に対して3次元の全体的人間の動きを生成することを目的とする。
話者とリスナーのリアルタイム相互影響を考察し,新しい連鎖型トランスフォーマーに基づく自己回帰モデルを提案する。
提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-03-28T14:47:32Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications [20.842799581850617]
音声信号から3次元顔形状を推定する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
論文 参考訳(メタデータ) (2023-11-30T01:14:43Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。