論文の概要: DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation
- arxiv url: http://arxiv.org/abs/2401.04747v2
- Date: Sat, 6 Apr 2024 14:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 01:36:21.551778
- Title: DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation
- Title(参考訳): DiffSHEG: リアルタイム音声駆動型ホロスティック3次元表現とジェスチャ生成のための拡散に基づくアプローチ
- Authors: Junming Chen, Yunfei Liu, Jianan Wang, Ailing Zeng, Yu Li, Qifeng Chen,
- Abstract要約: DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
- 参考スコア(独自算出の注目度): 72.85685916829321
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose DiffSHEG, a Diffusion-based approach for Speech-driven Holistic 3D Expression and Gesture generation with arbitrary length. While previous works focused on co-speech gesture or expression generation individually, the joint generation of synchronized expressions and gestures remains barely explored. To address this, our diffusion-based co-speech motion generation transformer enables uni-directional information flow from expression to gesture, facilitating improved matching of joint expression-gesture distributions. Furthermore, we introduce an outpainting-based sampling strategy for arbitrary long sequence generation in diffusion models, offering flexibility and computational efficiency. Our method provides a practical solution that produces high-quality synchronized expression and gesture generation driven by speech. Evaluated on two public datasets, our approach achieves state-of-the-art performance both quantitatively and qualitatively. Additionally, a user study confirms the superiority of DiffSHEG over prior approaches. By enabling the real-time generation of expressive and synchronized motions, DiffSHEG showcases its potential for various applications in the development of digital humans and embodied agents.
- Abstract(参考訳): 任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチであるDiffSHEGを提案する。
従来の研究は、共同音声ジェスチャや表現生成を個別に重視していたが、同期表現とジェスチャーの合同生成はほとんど検討されていない。
これを解決するために,我々の拡散型音声合成変換器は,表情からジェスチャーへの一方向情報の流れを可能とし,関節の表情・姿勢分布の整合性を向上させる。
さらに,拡散モデルにおける任意のロングシーケンス生成のためのアウトペイントに基づくサンプリング戦略を導入し,柔軟性と計算効率を提供する。
提案手法は,音声認識による高品質な同期表現とジェスチャー生成を実現する実用的なソリューションを提供する。
提案手法は,2つの公開データセットに基づいて,定量的かつ定性的に,最先端の性能を達成する。
さらに、ユーザスタディでは、従来のアプローチよりもDiffSHEGの方が優れていることが確認されている。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
関連論文リスト
- EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Investigating the Design Space of Diffusion Models for Speech Enhancement [17.914763947871368]
拡散モデルは、画像生成文学において優れた性能を示す新しい生成モデルである。
従来の拡散型音声強調システムの性能は、清潔な音声信号と雑音の多い音声信号の間の進行的な変換によるものではないことを示す。
また,プレコンディショニング,トレーニング損失重み付け,SDE,サンプル処理の適切な選択により,一般的な拡散に基づく音声強調システムよりも優れることを示す。
論文 参考訳(メタデータ) (2023-12-07T15:40:55Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - Multimodal-driven Talking Face Generation via a Unified Diffusion-based
Generator [29.58245990622227]
マルチモーダル駆動型トーキングフェイス生成(マルチモーダルドリブントーキングフェイスジェネレーション)とは、画像や動画から移動された、あるいはテキストやオーディオから推定される、与えられたポーズ、表情、および視線で肖像画をアニメーションすることを指す。
既存の手法はテキスト・モーダルの可能性を無視し、ジェネレータは主に不安定なGANフレームワークと結合したソース指向の機能パラダイムに従う。
不安定なシーソースタイルの最適化が不要な新しいパラダイムを導出し、単純で安定で効果的なトレーニングと推論スキームを導出する。
論文 参考訳(メタデータ) (2023-05-04T07:01:36Z) - DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。