Fugu-MT 論文翻訳(概要): EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Masked Audio Gesture Modeling

論文の概要: EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Masked Audio Gesture Modeling

arxiv url: http://arxiv.org/abs/2401.00374v2
Date: Tue, 2 Jan 2024 08:05:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 17:41:09.726568
Title: EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Masked Audio Gesture Modeling
Title（参考訳）: EMAGE:Masked Audio Gesture Modelingによる一元的音声合成に向けて
Authors: Haiyang Liu, Zihao Zhu, Giorgio Becherini, Yichen Peng, Mingyang Su, You Zhou, Naoya Iwamoto, Bo Zheng, Michael J. Black
Abstract要約: EMAGEは、音声とマスクによるジェスチャーからフルボディの人間のジェスチャーを生成するためのフレームワークである。 BEATXは新しいメッシュレベルの全体論的共同音声データセットである。 EMAGEは、最先端のパフォーマンスで全体的なジェスチャーを生成する。
参考スコア（独自算出の注目度）: 57.48790363433992
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: We propose EMAGE, a framework to generate full-body human gestures from audio and masked gestures, encompassing facial, local body, hands, and global movements. To achieve this, we first introduce BEATX (BEAT-SMPLX-FLAME), a new mesh-level holistic co-speech dataset. BEATX combines MoShed SMPLX body with FLAME head parameters and further refines the modeling of head, neck, and finger movements, offering a community-standardized, high-quality 3D motion captured dataset. EMAGE leverages masked body gesture priors during training to boost inference performance. It involves a Masked Audio Gesture Transformer, facilitating joint training on audio-to-gesture generation and masked gesture reconstruction to effectively encode audio and body gesture hints. Encoded body hints from masked gestures are then separately employed to generate facial and body movements. Moreover, EMAGE adaptively merges speech features from the audio's rhythm and content and utilizes four compositional VQ-VAEs to enhance the results' fidelity and diversity. Experiments demonstrate that EMAGE generates holistic gestures with state-of-the-art performance and is flexible in accepting predefined spatial-temporal gesture inputs, generating complete, audio-synchronized results. Our code and dataset are available at https://pantomatrix.github.io/EMAGE/
Abstract（参考訳）: 本研究では,顔,局所体,手,グローバルな動きを包含する,音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するフレームワークEMAGEを提案する。そこで我々はまずBEATX(BEAT-SMPLX-FLAME)を導入した。 BEATXはMoShed SMPLX本体をFLAMEヘッドパラメータと組み合わせ、頭部、首、指の動きのモデリングをさらに洗練し、コミュニティ標準化された高品質な3Dモーションキャプチャーデータセットを提供する。 EMAGEはトレーニング中にマスクされたボディジェスチャの事前情報を活用して推論性能を向上させる。マスク付きオーディオジェスチャトランスフォーマは、オーディオからジェスチャへの生成とマスク付きジェスチャ再構成の合同トレーニングを容易にし、オーディオとボディジェスチャのヒントを効果的にエンコードする。マスクされたジェスチャーから符号化された身体のヒントは、顔と身体の動きを生成するために別々に使用される。さらに、EMAGEは音声のリズムと内容から音声特徴を適応的にマージし、4つの合成VQ-VAEを用いて結果の忠実度と多様性を高める。実験により、EMAGEは最先端の性能を持つ全体的ジェスチャーを生成し、事前定義された空間的時間的ジェスチャー入力を受け入れ、完全な音声同期結果を生成する。私たちのコードとデータセットはhttps://pantomatrix.github.io/emage/で利用可能です。

関連論文リスト

MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation [16.047359219257753]
Co-Speech Gesture Video Generationは、音声駆動の静止画像から鮮やかな音声ビデオを生成することを目的としている。本研究では,音声信号から発生する動作マスクや動作特徴だけでなく,音声を用いた運動マスク誘導2段階ネットワーク(MMGT)を提案する。
論文参考訳（メタデータ） (2025-05-29T05:40:46Z)
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文参考訳（メタデータ） (2025-01-18T07:51:29Z)
GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文参考訳（メタデータ） (2024-11-27T18:54:08Z)
Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts [41.08576055846111]
Stereo-Talkerは、新しいワンショットオーディオ駆動型ヒューマンビデオ合成システムである。正確な唇の同期、表現力のある身体ジェスチャー、時間的に一貫したフォトリアリスティックな品質、継続的な視点制御を備えた3Dビデオを生成する。
論文参考訳（メタデータ） (2024-10-31T11:32:33Z)
ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。 AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文参考訳（メタデータ） (2024-10-12T07:01:17Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
CoCoGesture: Toward Coherent Co-speech 3D Gesture Generation in the Wild [44.401536230814465]
CoCoGestureは、目に見えない人間の音声プロンプトから鮮明で多様なジェスチャー合成を可能にする新しいフレームワークである。私たちの重要な洞察は、カスタム設計のトレーニングパラダイムに基づいています。提案するCoCoGesture は,ゼロショット音声・ジェスチャー生成における最先端手法よりも優れる。
論文参考訳（メタデータ） (2024-05-27T06:47:14Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文参考訳（メタデータ） (2022-12-08T17:25:19Z)
Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文参考訳（メタデータ） (2022-12-05T15:28:22Z)
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文参考訳（メタデータ） (2022-03-24T16:33:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。