論文の概要: Audio-Driven Co-Speech Gesture Video Generation
- arxiv url: http://arxiv.org/abs/2212.02350v1
- Date: Mon, 5 Dec 2022 15:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:53:07.142817
- Title: Audio-Driven Co-Speech Gesture Video Generation
- Title(参考訳): 音声駆動型協調ジェスチャービデオ生成
- Authors: Xian Liu, Qianyi Wu, Hang Zhou, Yuanqi Du, Wayne Wu, Dahua Lin, Ziwei
Liu
- Abstract要約: 音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
- 参考スコア(独自算出の注目度): 92.15661971086746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-speech gesture is crucial for human-machine interaction and digital
entertainment. While previous works mostly map speech audio to human skeletons
(e.g., 2D keypoints), directly generating speakers' gestures in the image
domain remains unsolved. In this work, we formally define and study this
challenging problem of audio-driven co-speech gesture video generation, i.e.,
using a unified framework to generate speaker image sequence driven by speech
audio. Our key insight is that the co-speech gestures can be decomposed into
common motion patterns and subtle rhythmic dynamics. To this end, we propose a
novel framework, Audio-driveN Gesture vIdeo gEneration (ANGIE), to effectively
capture the reusable co-speech gesture patterns as well as fine-grained
rhythmic movements. To achieve high-fidelity image sequence generation, we
leverage an unsupervised motion representation instead of a structural human
body prior (e.g., 2D skeletons). Specifically, 1) we propose a vector quantized
motion extractor (VQ-Motion Extractor) to summarize common co-speech gesture
patterns from implicit motion representation to codebooks. 2) Moreover, a
co-speech gesture GPT with motion refinement (Co-Speech GPT) is devised to
complement the subtle prosodic motion details. Extensive experiments
demonstrate that our framework renders realistic and vivid co-speech gesture
video. Demo video and more resources can be found in:
https://alvinliu0.github.io/projects/ANGIE
- Abstract(参考訳): 協調的なジェスチャーは、人間と機械の相互作用とデジタルエンタテインメントに不可欠である。
以前の研究は主に音声を人間の骨格(例えば2Dキーポイント)にマッピングするが、画像領域における話者のジェスチャーを直接生成することは未解決のままである。
本研究は,音声を駆動する話者画像列生成のための統一フレームワークを用いて,音声駆動協調ジェスチャ映像生成の課題を形式的に定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
そこで本研究では,再利用可能な音声のジェスチャーパターンと微妙なリズム運動を効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEnerationを提案する。
高忠実な画像シーケンス生成を実現するために、構造的な人体(例えば2d骨格)ではなく教師なしの運動表現を利用する。
具体的には
1) ベクトル量子化運動抽出器(VQ-Motion Extractor)を提案する。
2) 動きの精細化(Co-Speech GPT)を図り, 微妙な韻律的動きの詳細を補完する。
大規模な実験により、我々のフレームワークは現実的で鮮明な音声ジェスチャービデオをレンダリングすることを示した。
デモビデオやその他のリソースは以下の通りである。
関連論文リスト
- Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。