論文の概要: MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation
- arxiv url: http://arxiv.org/abs/2505.23120v1
- Date: Thu, 29 May 2025 05:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.700485
- Title: MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation
- Title(参考訳): MMGT:モーションマスクによる音声合成のための2段階ネットワーク
- Authors: Siyuan Wang, Jiawei Liu, Wei Wang, Yeying Jin, Jinsong Du, Zhi Han,
- Abstract要約: Co-Speech Gesture Video Generationは、音声駆動の静止画像から鮮やかな音声ビデオを生成することを目的としている。
本研究では,音声信号から発生する動作マスクや動作特徴だけでなく,音声を用いた運動マスク誘導2段階ネットワーク(MMGT)を提案する。
- 参考スコア(独自算出の注目度): 16.047359219257753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-Speech Gesture Video Generation aims to generate vivid speech videos from audio-driven still images, which is challenging due to the diversity of different parts of the body in terms of amplitude of motion, audio relevance, and detailed features. Relying solely on audio as the control signal often fails to capture large gesture movements in video, leading to more pronounced artifacts and distortions. Existing approaches typically address this issue by introducing additional a priori information, but this can limit the practical application of the task. Specifically, we propose a Motion Mask-Guided Two-Stage Network (MMGT) that uses audio, as well as motion masks and motion features generated from the audio signal to jointly drive the generation of synchronized speech gesture videos. In the first stage, the Spatial Mask-Guided Audio Pose Generation (SMGA) Network generates high-quality pose videos and motion masks from audio, effectively capturing large movements in key regions such as the face and gestures. In the second stage, we integrate the Motion Masked Hierarchical Audio Attention (MM-HAA) into the Stabilized Diffusion Video Generation model, overcoming limitations in fine-grained motion generation and region-specific detail control found in traditional methods. This guarantees high-quality, detailed upper-body video generation with accurate texture and motion details. Evaluations show improved video quality, lip-sync, and gesture. The model and code are available at https://github.com/SIA-IDE/MMGT.
- Abstract(参考訳): Co-Speech Gesture Video Generationは、音声駆動の静止画から鮮やかな音声ビデオを生成することを目的としている。
音声のみを制御信号として利用することは、ビデオ中の大きなジェスチャーの動きを捉えるのに失敗することが多く、より顕著なアーチファクトや歪みをもたらす。
既存のアプローチは通常、事前情報を追加することでこの問題に対処するが、これはタスクの実践的適用を制限する可能性がある。
具体的には,音声を用いた動作マスクと音声信号から発生する動作特徴を利用して,同期音声ジェスチャビデオの生成を共同で駆動する動きマスク誘導2段階ネットワーク(MMGT)を提案する。
第1段階では、空間マスク誘導型音声詩生成(SMGA)ネットワークは、音声から高品質なポーズビデオとモーションマスクを生成し、顔やジェスチャーなどの重要な領域における大きな動きを効果的にキャプチャする。
第2段階では、従来の手法で見られる微粒な動き生成と地域固有の詳細制御の限界を克服し、MM-HAA(Motion Masked Hierarchical Audio Attention)を安定化拡散ビデオ生成モデルに統合する。
これにより、高品質で詳細な上半身のビデオ生成が保証され、正確なテクスチャと動きの詳細な情報が得られる。
評価では、ビデオ品質、リップシンク、ジェスチャーが改善された。
モデルとコードはhttps://github.com/SIA-IDE/MMGT.comで公開されている。
関連論文リスト
- MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。