論文の概要: DeepGesture: A conversational gesture synthesis system based on emotions and semantics
- arxiv url: http://arxiv.org/abs/2507.03147v1
- Date: Thu, 03 Jul 2025 20:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.594287
- Title: DeepGesture: A conversational gesture synthesis system based on emotions and semantics
- Title(参考訳): DeepGesture:感情と意味に基づく対話型ジェスチャー合成システム
- Authors: Thanh Hoang-Minh,
- Abstract要約: DeepGestureは拡散に基づくジェスチャー合成フレームワークである。
マルチモーダル信号(テキスト、スピーチ、感情、シードモーション)に条件付けされた表現的コ音声ジェスチャーを生成する。
本システムは,感情状態間の相互作用をサポートし,合成音声を含む分布外発話を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Along with the explosion of large language models, improvements in speech synthesis, advancements in hardware, and the evolution of computer graphics, the current bottleneck in creating digital humans lies in generating character movements that correspond naturally to text or speech inputs. In this work, we present DeepGesture, a diffusion-based gesture synthesis framework for generating expressive co-speech gestures conditioned on multimodal signals-text, speech, emotion, and seed motion. Built upon the DiffuseStyleGesture model, DeepGesture introduces novel architectural enhancements that improve semantic alignment and emotional expressiveness in generated gestures. Specifically, we integrate fast text transcriptions as semantic conditioning and implement emotion-guided classifier-free diffusion to support controllable gesture generation across affective states. A lightweight Transformer backbone combines full self-attention and cross-local attention for effective feature fusion of heterogeneous modalities. To visualize results, we implement a full rendering pipeline in Unity based on BVH output from the model. Evaluation on the ZeroEGGS dataset shows that DeepGesture produces gestures with improved human-likeness and contextual appropriateness, outperforming baselines on Mean Opinion Score and Frechet Gesture Distance metrics. Our system supports interpolation between emotional states and demonstrates generalization to out-of-distribution speech, including synthetic voices-marking a step forward toward fully multimodal, emotionally aware digital humans.
- Abstract(参考訳): 大規模な言語モデルの爆発、音声合成の改善、ハードウェアの進歩、コンピュータグラフィックスの進化とともに、デジタル人間を作る際の現在のボトルネックは、テキストや音声入力に自然に対応する文字の動きを生成することである。
本研究では,多モーダル信号テキスト,音声,感情,シード動作を条件とした表現的共同音声合成フレームワークであるDeepGestureを提案する。
DiffuseStyleGestureモデルに基づいて、DeepGestureは、生成したジェスチャのセマンティックアライメントと感情的な表現性を改善する、新しいアーキテクチャ拡張を導入した。
具体的には、素早いテキストの書き起こしをセマンティック・コンディショニングとして統合し、感情誘導型クラシファイアフリー拡散を実装し、感情状態間の制御可能なジェスチャー生成をサポートする。
軽量トランスフォーマーバックボーンは、完全自己注意と局所的注意を組み合わせ、不均一なモーダルを効果的に融合させる。
結果を可視化するために、モデルからのBVH出力に基づいて、Unityで完全なレンダリングパイプラインを実装します。
ZeroEGGSデータセットの評価によると、DeepGestureは、人間の類似性と文脈的適切性を改善したジェスチャーを生成し、平均オピニオンスコアとFrechet Gesture Distance測定値のベースラインを上回っている。
本システムでは,感情状態の補間を支援するとともに,音声の合成を含むアウト・オブ・ディストリビューション音声への一般化を実証する。
関連論文リスト
- SignAligner: Harmonizing Complementary Pose Modalities for Coherent Sign Language Generation [41.240893601941536]
我々は、広く使われているRWTH-ENIXPHO-Weather 2014Tデータセットの拡張版であるENIX14T+を紹介し、Pose、Hamer、Smplerxの3つの新しいサイン表現を特徴とする。
また,テキスト駆動のポーズ・モダリティ・コジェネレーション,マルチモーダルのオンライン協調補正,現実的な手話合成の3段階からなる手話生成のための手話生成手法であるSignAlignerを提案する。
論文 参考訳(メタデータ) (2025-06-13T09:44:42Z) - Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers [58.86974149731874]
Cosh-DiTは、ハイブリッド拡散変換器を備えた音声合成方式である。
我々は音声拡散変換器を導入し、音声リズムに同期した表現的ジェスチャーダイナミクスを合成する。
生成した音声駆動動作に条件付きリアルな映像合成を行うために,視覚拡散変換器を設計する。
論文 参考訳(メタデータ) (2025-03-13T01:36:05Z) - PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:01:17Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。