論文の概要: Towards Unified Co-Speech Gesture Generation via Hierarchical Implicit Periodicity Learning
- arxiv url: http://arxiv.org/abs/2512.13131v1
- Date: Mon, 15 Dec 2025 09:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.60719
- Title: Towards Unified Co-Speech Gesture Generation via Hierarchical Implicit Periodicity Learning
- Title(参考訳): 階層的インシシシト周期学習による音声合成の統一化に向けて
- Authors: Xin Guo, Yifan Zhao, Jia Li,
- Abstract要約: 一般的な学習スキームは、異なる運動単位間で重要な相互関係や相関関係をモデル化することができないと我々は主張する。
音声に触発された3次元ジェスチャー生成のための階層型暗黙周期性(HIP)学習手法を提案する。
- 参考スコア(独自算出の注目度): 13.132419390712807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D-based body movements from speech shows great potential in extensive downstream applications, while it still suffers challenges in imitating realistic human movements. Predominant research efforts focus on end-to-end generation schemes to generate co-speech gestures, spanning GANs, VQ-VAE, and recent diffusion models. As an ill-posed problem, in this paper, we argue that these prevailing learning schemes fail to model crucial inter- and intra-correlations across different motion units, i.e. head, body, and hands, thus leading to unnatural movements and poor coordination. To delve into these intrinsic correlations, we propose a unified Hierarchical Implicit Periodicity (HIP) learning approach for audio-inspired 3D gesture generation. Different from predominant research, our approach models this multi-modal implicit relationship by two explicit technique insights: i) To disentangle the complicated gesture movements, we first explore the gesture motion phase manifolds with periodic autoencoders to imitate human natures from realistic distributions while incorporating non-period ones from current latent states for instance-level diversities. ii) To model the hierarchical relationship of face motions, body gestures, and hand movements, driving the animation with cascaded guidance during learning. We exhibit our proposed approach on 3D avatars and extensive experiments show our method outperforms the state-of-the-art co-speech gesture generation methods by both quantitative and qualitative evaluations. Code and models will be publicly available.
- Abstract(参考訳): 音声から3Dベースの身体の動きを生成することは、下流の幅広い応用において大きな可能性を秘めている。
先行研究は、GAN、VQ-VAE、および最近の拡散モデルにまたがる共同音声ジェスチャを生成するエンドツーエンド生成方式に焦点を当てている。
本論文では,これらの学習手法が,頭部,身体,手などの異なる運動単位間の重要な相互関係や相関関係をモデル化できず,不自然な動きや調整不良につながることを論じる。
そこで本研究では,これらの内在的相関関係を探索するために,音声に着想を得た3次元ジェスチャー生成のための階層的暗黙周期性(HIP)学習手法を提案する。
主要な研究とは違って、我々のアプローチは2つの明確な技術洞察によって、このマルチモーダルな暗黙の関係をモデル化する。
一 複雑なジェスチャー動作を解き放つために、まず、動作動作相多様体を周期的オートエンコーダで探索し、現実的な分布から人間の性質を模倣しつつ、現在の潜時状態の非周期的な動きを例レベルの多様性に取り入れる。
二 顔の動き、身振り、手の動きの階層的関係をモデル化し、学習中にカスケードした指導でアニメーションを駆動すること。
提案手法を3次元アバターに適用し, 定量的および定性的な評価により, 最先端の音声ジェスチャー生成法よりも優れた性能を示す。
コードとモデルは公開されます。
関連論文リスト
- MotionGPT3: Human Motion as a Second Modality [28.616340011811843]
MotionGPT3は、理解と生成の両方のためのバイモーダルモーション言語モデルである。
共通注意を持つデュアルストリームトランスは、制御された双方向情報フローを実現しつつ、モダリティ固有の経路を保存する。
実験により、MotionGPT3はトレーニング損失の2倍高速収束、検証の最大4倍高速収束を実現している。
論文 参考訳(メタデータ) (2025-06-30T17:42:22Z) - HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation [42.30003982604611]
共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと歩みを高める重要な非言語的手がかりである。
ジェスチャー動作, 音声リズム, テキストセマンティクスのヘテロジニアスな絡み合いを捕捉し, 共同音声ジェスチャ生成のためのHOPという新しい手法を提案する。
HOPは、より自然で表現力のある共同音声ジェスチャ生成を提供する最先端技術を実現している。
論文 参考訳(メタデータ) (2025-03-03T04:47:39Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Stochastic Multi-Person 3D Motion Forecasting [21.915057426589744]
我々は、人間の動き予測に先立つ作業において、無視された現実世界の複雑さに対処する。
私たちのフレームワークは一般的なもので、異なる生成モデルでインスタンス化します。
このアプローチは多種多人数の予測を多種多様な精度で生成し,技術水準を著しく上回っている。
論文 参考訳(メタデータ) (2023-06-08T17:59:09Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。