論文の概要: PersonaGest: Personalized Co-Speech Gesture Generation with Semantic-Guided Hierarchical Motion Representation
- arxiv url: http://arxiv.org/abs/2605.07252v1
- Date: Fri, 08 May 2026 05:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.813723
- Title: PersonaGest: Personalized Co-Speech Gesture Generation with Semantic-Guided Hierarchical Motion Representation
- Title(参考訳): ペルソナゲスト:セマンティックガイドによる階層的動き表現を用いた個人化共同音声ジェスチャ生成
- Authors: Junchuan Zhao, Qifan Liang, Ye Wang,
- Abstract要約: 共同音声ジェスチャ生成は、現実的な身体の動きを音声と意味的に調和させることを目的としている。
既存のVQ-VAEベースの音声合成手法では,動作表現に意味構造をエンコードすることができない。
両制約に対処する2段階のフレームワークである PersonaGest を提示する。
- 参考スコア(独自算出の注目度): 5.8539442830448785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Co-speech gesture generation aims to synthesize realistic body movements that are semantically coherent with speech and faithful to a user-specified gestural style. Existing VQ-VAE based co-speech gesture generation methods improve generation quality but fail to encode semantic structure into the motion representation or explicitly disentangle content from style, limiting both semantic coherence and personalization fidelity. We present PersonaGest, a two-stage framework addressing both limitations. In the first stage, a semantic-guided RVQ-VAE disentangles motion content and gestural style within the residual quantization structure, where a Semantic-Aware Motion Codebook (SMoC) organizes the content codebook by gesture semantics and contrastive learning further enforces content-style separation. In the second stage, a Masked Generative Transformer generates content tokens via a semantic-aware re-masking strategy, followed by a cascade of Style Residual Transformers conditioned on a reference motion prompt for style control. Extensive experiments demonstrate state-of-the-art performance on objective metrics and perceptual user studies, with strong style consistency to the reference prompt. Our project page with demo videos is available at https://danny-nus.github.io/PersonaGest/
- Abstract(参考訳): 共同音声ジェスチャ生成は,言語にセマンティック・コヒーレントな現実的な身体運動を合成することを目的としており,ユーザが特定したジェスチャースタイルに忠実である。
既存のVQ-VAEベースの音声ジェスチャー生成手法は、生成品質を向上させるが、動作表現に意味構造をエンコードしたり、スタイルから明確にコンテンツを切り離すことができず、セマンティックコヒーレンスとパーソナライズの両方の忠実さを制限している。
両制約に対処する2段階のフレームワークである PersonaGest を提示する。
第1段階では、セマンティック・アウェア・モーション・コードブック(SMoC)がジェスチャ・セマンティクスによってコンテンツコードブックを整理し、コントラスト学習によりコンテンツスタイルの分離をさらに強制する。
第2段階では、Masked Generative Transformerは、セマンティック・アウェア・リメイキング戦略を介してコンテンツトークンを生成し、続いてスタイル制御のための参照動作プロンプトに条件付のStyle Residual Transformerのカスケードを生成する。
広範囲にわたる実験は、客観的な指標と知覚的ユーザスタディにおける最先端のパフォーマンスを示し、参照プロンプトに強いスタイル整合性を示す。
デモビデオ付きプロジェクトページはhttps://danny-nus.github.io/PersonaGest/で公開されている。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - StyDeco: Unsupervised Style Transfer with Distilling Priors and Semantic Decoupling [5.12285618196312]
StyDecoは、スタイル転送タスクに適したテキスト表現を学習する教師なしのフレームワークである。
本フレームワークは, 構造的忠実度と構造的保存性の両方において, 既存手法より優れる。
論文 参考訳(メタデータ) (2025-08-02T06:17:23Z) - Motion-example-controlled Co-speech Gesture Generation Leveraging Large Language Models [33.614886497394785]
我々は,大規模言語モデル(LLM)を活用して,動きのサンプル制御による協調音声ジェスチャ生成のためのフレームワークMECoを提案する。
本手法は,音声認識と動作例を同時に解釈するための微調整により,LLMの理解能力を活用する。
我々のフレームワークは、個々の身体部分のきめ細かい制御を可能にし、モーションクリップ、静的ポーズ、ヒューマンビデオシーケンス、テキスト記述など、多様な入力モダリティに対応している。
論文 参考訳(メタデータ) (2025-07-27T10:59:29Z) - SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning [0.6249768559720122]
共同音声ジェスチャ生成における意味的接地のための新しい手法を提案する。
我々のアプローチは、ベクトル量子化された変分オートエンコーダによって、前もって動きを学習することから始まる。
提案手法は,2つのベンチマークにおいて,音声合成における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2025-07-25T15:10:15Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。