論文の概要: GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling
- arxiv url: http://arxiv.org/abs/2501.18898v2
- Date: Sat, 08 Mar 2025 01:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:39:37.372931
- Title: GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling
- Title(参考訳): GestureLSM:空間時間モデルを用いたラテントショートカットに基づく音声合成
- Authors: Pinxin Liu, Luchuan Song, Junhua Huang, Haiyang Liu, Chenliang Xu,
- Abstract要約: GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。
BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
- 参考スコア(独自算出の注目度): 32.47567372398872
- License:
- Abstract: Generating full-body human gestures based on speech signals remains challenges on quality and speed. Existing approaches model different body regions such as body, legs and hands separately, which fail to capture the spatial interactions between them and result in unnatural and disjointed movements. Additionally, their autoregressive/diffusion-based pipelines show slow generation speed due to dozens of inference steps. To address these two challenges, we propose GestureLSM, a flow-matching-based approach for Co-Speech Gesture Generation with spatial-temporal modeling. Our method i) explicitly model the interaction of tokenized body regions through spatial and temporal attention, for generating coherent full-body gestures. ii) introduce the flow matching to enable more efficient sampling by explicitly modeling the latent velocity space. To overcome the suboptimal performance of flow matching baseline, we propose latent shortcut learning and beta distribution time stamp sampling during training to enhance gesture synthesis quality and accelerate inference. Combining the spatial-temporal modeling and improved flow matching-based framework, GestureLSM achieves state-of-the-art performance on BEAT2 while significantly reducing inference time compared to existing methods, highlighting its potential for enhancing digital humans and embodied agents in real-world applications. Project Page: https://andypinxinliu.github.io/GestureLSM
- Abstract(参考訳): 音声信号に基づくフルボディの人間のジェスチャーの生成は、品質とスピードに課題が残る。
既存のアプローチは、身体、足、手などの異なる身体領域を個別にモデル化するが、それら間の空間的相互作用を捉えることができず、不自然で不規則な動きをもたらす。
さらに、自動回帰/拡散に基づくパイプラインは、数十の推論ステップのため、生成速度が遅い。
これら2つの課題に対処するために,空間時間モデルを用いた協調音声ジェスチャ生成のためのフローマッチングベースアプローチであるGestureLSMを提案する。
我々の方法
一 空間的及び時間的注意を通したトークン化された身体領域の相互作用を明示的にモデル化し、コヒーレントな全身ジェスチャーを生成すること。
二 流速空間を明示的にモデル化することにより、より効率的なサンプリングを可能にするための流速マッチングを導入すること。
フローマッチングベースラインの最適性能を克服するために,トレーニング中の潜時ショートカット学習とベータ分布タイムスタンプサンプリングを提案し,ジェスチャー合成の質を高め,推論を高速化する。
GestureLSMは、時空間モデリングとフローマッチングベースのフレームワークの改善を組み合わせることで、BEAT2の最先端性能を実現し、既存の手法に比べて推論時間を大幅に短縮し、現実世界のアプリケーションにおけるデジタル人間やエンボディエージェントの強化の可能性を強調した。
Project Page: https://andypinxinliu.github.io/GestureLSM
関連論文リスト
- Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。
このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文 参考訳(メタデータ) (2024-11-25T15:36:29Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals [5.283718601431859]
エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインタフェースは,医療応用における高性能音声復号化を約束している。
離散コーデックス誘導マスクモデリングにより,領域レベルのトークンに基づくコンテキスト埋め込みを抽出するDu-INモデルを開発した。
本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-19T06:00:36Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z) - SLGTformer: An Attention-Based Approach to Sign Language Recognition [19.786769414376323]
手話は習得が困難で、聞き難い人や話せない人にとって重要な障壁となる。
本稿では,時間グラフの自己認識をデコンストラクトした手話認識手法を提案する。
WLASLデータセットにおけるSLformerの有効性を示す。
論文 参考訳(メタデータ) (2022-12-21T03:30:43Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。