論文の概要: Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded
Conditional Control
- arxiv url: http://arxiv.org/abs/2312.15900v1
- Date: Tue, 26 Dec 2023 06:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:42:08.536805
- Title: Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded
Conditional Control
- Title(参考訳): 生成の連鎖:カスケード条件制御によるマルチモーダルジェスチャー合成
- Authors: Zunnan Xu, Yachao Zhang, Sicheng Yang, Ronghui Li, Xiu Li
- Abstract要約: 本研究では,人間の発話からの多モーダル情報を活用することで,3次元ジェスチャーの生成を改善することを目的とする。
本稿では,音声から先行を分離し,ジェスチャー生成の制約としてマルチモーダル先行を用いる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 26.31638205831119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aims to improve the generation of 3D gestures by utilizing
multimodal information from human speech. Previous studies have focused on
incorporating additional modalities to enhance the quality of generated
gestures. However, these methods perform poorly when certain modalities are
missing during inference. To address this problem, we suggest using
speech-derived multimodal priors to improve gesture generation. We introduce a
novel method that separates priors from speech and employs multimodal priors as
constraints for generating gestures. Our approach utilizes a chain-like
modeling method to generate facial blendshapes, body movements, and hand
gestures sequentially. Specifically, we incorporate rhythm cues derived from
facial deformation and stylization prior based on speech emotions, into the
process of generating gestures. By incorporating multimodal priors, our method
improves the quality of generated gestures and eliminate the need for expensive
setup preparation during inference. Extensive experiments and user studies
confirm that our proposed approach achieves state-of-the-art performance.
- Abstract(参考訳): 本研究では,人間の発話からの多モーダル情報を利用して3次元ジェスチャーの生成を改善することを目的とする。
これまでの研究は、ジェスチャの質を高めるために追加のモダリティの導入に重点を置いてきた。
しかし、推論中にある種のモダリティが欠けている場合、これらのメソッドはうまく動作しない。
この問題に対処するために,ジェスチャ生成を改善するために,音声由来のマルチモーダル優先法を提案する。
本稿では,音声から先行を分離し,ジェスチャー生成の制約としてマルチモーダル先行を用いる新しい手法を提案する。
本手法は鎖状モデルを用いて顔の混在、身体の動き、手の動きを逐次生成する。
具体的には、音声の感情に基づく顔の変形とスタイル化から派生したリズムキューをジェスチャー生成のプロセスに組み込む。
マルチモーダルプリエントを組み込むことにより,生成ジェスチャの品質を向上し,推論時に高価なセットアップ準備を不要にする。
広範な実験とユーザスタディにより,提案手法が最先端の性能を実現することを確認した。
関連論文リスト
- MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文 参考訳(メタデータ) (2024-10-09T03:27:14Z) - KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - A Unified Framework for Multimodal, Multi-Part Human Motion Synthesis [17.45562922442149]
我々は,マルチモーダル(テキスト,音楽,音声)とマルチパート(手,胴体)のヒューマンモーション生成を融合する,密着的でスケーラブルなアプローチを導入する。
本手法は,制御信号のモダリティに基づく特殊コードブックから,多モード動作生成課題をトークン予測タスクとして表現する。
論文 参考訳(メタデータ) (2023-11-28T04:13:49Z) - MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation [18.349024345195318]
音声合成のためのマルチモーダル事前学習エンコーダを用いた新しいフレームワークを提案する。
提案手法は,全ての入力モダリティが与えられた時だけでなく,入力モダリティの欠如やノイズが生じた時にも,リアルなコ音声ジェスチャーを描画する。
論文 参考訳(メタデータ) (2023-05-25T05:42:58Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Multi-modal Fusion for Single-Stage Continuous Gesture Recognition [45.19890687786009]
テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
論文 参考訳(メタデータ) (2020-11-10T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。