論文の概要: LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2309.09294v1
- Date: Sun, 17 Sep 2023 15:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 16:21:20.552873
- Title: LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation
- Title(参考訳): livelyspeaker:semantic-aware co-speechジェスチャ生成に向けて
- Authors: Yihao Zhi, Xiaodong Cun, Xuelin Chen, Xi Shen, Wen Guo, Shaoli Huang,
Shenghua Gao
- Abstract要約: セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
- 参考スコア(独自算出の注目度): 41.42316077949012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gestures are non-verbal but important behaviors accompanying people's speech.
While previous methods are able to generate speech rhythm-synchronized
gestures, the semantic context of the speech is generally lacking in the
gesticulations. Although semantic gestures do not occur very regularly in human
speech, they are indeed the key for the audience to understand the speech
context in a more immersive environment. Hence, we introduce LivelySpeaker, a
framework that realizes semantics-aware co-speech gesture generation and offers
several control handles. In particular, our method decouples the task into two
stages: script-based gesture generation and audio-guided rhythm refinement.
Specifically, the script-based gesture generation leverages the pre-trained
CLIP text embeddings as the guidance for generating gestures that are highly
semantically aligned with the script. Then, we devise a simple but effective
diffusion-based gesture generation backbone simply using pure MLPs, that is
conditioned on only audio signals and learns to gesticulate with realistic
motions. We utilize such powerful prior to rhyme the script-guided gestures
with the audio signals, notably in a zero-shot setting. Our novel two-stage
generation framework also enables several applications, such as changing the
gesticulation style, editing the co-speech gestures via textual prompting, and
controlling the semantic awareness and rhythm alignment with guided diffusion.
Extensive experiments demonstrate the advantages of the proposed framework over
competing methods. In addition, our core diffusion-based generative model also
achieves state-of-the-art performance on two benchmarks. The code and model
will be released to facilitate future research.
- Abstract(参考訳): ジェスチャーは非言語的だが人々のスピーチに付随する重要な行動である。
従来の手法では音声リズム同期ジェスチャを生成できるが、音声の意味的文脈は概してジェスチャーに欠けている。
セマンティックジェスチャは人間の発話ではあまり頻繁には発生しないが、これは聴衆がより没入的な環境で音声の文脈を理解するための鍵である。
そこで我々は,semantics-aware co-speechジェスチャ生成を実現するフレームワークであるlivelyspeakerを紹介する。
特に,本手法は,スクリプトベースのジェスチャー生成と音声誘導によるリズム改善の2段階に分割する。
具体的には、スクリプトベースのジェスチャー生成は、トレーニング済みのCLIPテキスト埋め込みを、スクリプトに高度にセマンティックに整合したジェスチャーを生成するためのガイダンスとして活用する。
そこで,本研究では,音声信号のみに適応した単純な拡散に基づくジェスチャー生成バックボーンを考案し,現実的な動作で身振りを学習する。
音声信号を用いたスクリプトガイドジェスチャ,特にゼロショット設定では,rhymeよりもこれほど強力である。
新たな2段階生成フレームワークでは,ジェスチレーションスタイルの変更,テキストプロンプトによる協調ジェスチャの編集,ガイド拡散による意味認識とリズムアライメントの制御など,いくつかの応用が可能となる。
大規模な実験は、競合する手法よりも提案されたフレームワークの利点を実証する。
さらに,コア拡散に基づく生成モデルも2つのベンチマークで最先端の性能を実現する。
コードとモデルは、将来の研究を促進するためにリリースされる。
関連論文リスト
- ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:01:17Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。