論文の概要: M3G: Multi-Granular Gesture Generator for Audio-Driven Full-Body Human Motion Synthesis
- arxiv url: http://arxiv.org/abs/2505.08293v2
- Date: Mon, 19 May 2025 14:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.658356
- Title: M3G: Multi-Granular Gesture Generator for Audio-Driven Full-Body Human Motion Synthesis
- Title(参考訳): マルチグラニュラージェスチャジェネレータM3G
- Authors: Zhizhuo Yin, Yuk Hang Tsui, Pan Hui,
- Abstract要約: 本稿では,M3G(Multi-Granular Gesture Generator)という新しいフレームワークを提案する。
M3Gでは、動作パターンをトークン化し、異なる時間性から動作シーケンスを再構築する、新しいマルチグラニュラーVQ-VAEを提案する。
提案するM3Gフレームワークは、自然かつ表現力のあるフルボディのジェスチャーを生成するという点で最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 8.461436861048961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating full-body human gestures encompassing face, body, hands, and global movements from audio is a valuable yet challenging task in virtual avatar creation. Previous systems focused on tokenizing the human gestures framewisely and predicting the tokens of each frame from the input audio. However, one observation is that the number of frames required for a complete expressive human gesture, defined as granularity, varies among different human gesture patterns. Existing systems fail to model these gesture patterns due to the fixed granularity of their gesture tokens. To solve this problem, we propose a novel framework named Multi-Granular Gesture Generator (M3G) for audio-driven holistic gesture generation. In M3G, we propose a novel Multi-Granular VQ-VAE (MGVQ-VAE) to tokenize motion patterns and reconstruct motion sequences from different temporal granularities. Subsequently, we proposed a multi-granular token predictor that extracts multi-granular information from audio and predicts the corresponding motion tokens. Then M3G reconstructs the human gestures from the predicted tokens using the MGVQ-VAE. Both objective and subjective experiments demonstrate that our proposed M3G framework outperforms the state-of-the-art methods in terms of generating natural and expressive full-body human gestures.
- Abstract(参考訳): 顔、体、手、そして音声からグローバルな動きを包含するフルボディの人間のジェスチャーを生成することは、仮想アバターを作成する上で価値のある課題である。
従来のシステムは、人間のジェスチャーをフレーム的にトークン化し、入力された音声から各フレームのトークンを予測することに重点を置いていた。
しかし、完全な表現的人間のジェスチャーに必要なフレームの数は、粒度として定義されるが、人間のジェスチャーパターンによって異なる。
既存のシステムは、ジェスチャートークンの粒度が固定されているため、これらのジェスチャーパターンをモデル化できない。
そこで本研究では,M3G (Multi-Granular Gesture Generator) という,音声によるジェスチャ生成のためのフレームワークを提案する。
M3Gでは、動きパターンをトークン化し、異なる時間的粒度から動きシーケンスを再構成する新しい多角VQ-VAE(MGVQ-VAE)を提案する。
その後、音声から多粒性情報を抽出し、対応する動きトークンを予測する多粒性トークン予測器を提案する。
そして、M3GはMGVQ-VAEを用いて予測トークンから人間のジェスチャーを再構成する。
客観的かつ主観的な実験は,本提案のM3Gフレームワークが,自然かつ表現力のあるフルボディのジェスチャーを生成するという点で,最先端の手法よりも優れていることを示す。
関連論文リスト
- CoCoGesture: Toward Coherent Co-speech 3D Gesture Generation in the Wild [42.09889990430308]
CoCoGestureは、目に見えない人間の音声プロンプトから鮮明で多様なジェスチャー合成を可能にする新しいフレームワークである。
私たちの重要な洞察は、カスタム設計のトレーニングパラダイムに基づいています。
提案するCoCoGesture は,ゼロショット音声・ジェスチャー生成における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-05-27T06:47:14Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation [18.349024345195318]
音声合成のためのマルチモーダル事前学習エンコーダを用いた新しいフレームワークを提案する。
提案手法は,全ての入力モダリティが与えられた時だけでなく,入力モダリティの欠如やノイズが生じた時にも,リアルなコ音声ジェスチャーを描画する。
論文 参考訳(メタデータ) (2023-05-25T05:42:58Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。