論文の概要: GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling
- arxiv url: http://arxiv.org/abs/2501.18898v1
- Date: Fri, 31 Jan 2025 05:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:00:25.099922
- Title: GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling
- Title(参考訳): GestureLSM:空間時間モデルを用いたラテントショートカットに基づく音声合成
- Authors: Pinxin Liu, Luchuan Song, Junhua Huang, Chenliang Xu,
- Abstract要約: 音声信号に基づいて人間のジェスチャーを制御することは、コンピュータビジョンにおいて重要な課題である。
本稿では,空間時間モデルを用いた音声合成手法であるGestureLSMを提案する。
我々は様々な身体領域をトークン化し、空間的・時間的注意と相互作用を明示的にモデル化する。
- 参考スコア(独自算出の注目度): 32.01822589945298
- License:
- Abstract: Controlling human gestures based on speech signals presents a significant challenge in computer vision. While existing works did preliminary studies of generating holistic co-speech gesture from speech, the spatial interaction of each body region during the speech remains barely explored. This leads to wield body part interactions given the speech signal. Furthermore, the slow generation speed limits the construction of real-world digital avatars. To resolve these problems, we propose \textbf{GestureLSM}, a Latent Shortcut based approach for Co-Speech Gesture Generation with spatial-temporal modeling. We tokenize various body regions and explicitly model their interactions with spatial and temporal attention. To achieve real-time gesture generations, we exam the denoising patterns and design an effective time distribution to speed up sampling while improve the generation quality for shortcut model. Extensive quantitative and qualitative experiments demonstrate the effectiveness of GestureLSM, showcasing its potential for various applications in the development of digital humans and embodied agents. Project Page: https://andypinxinliu.github.io/GestureLSM
- Abstract(参考訳): 音声信号に基づいて人間のジェスチャーを制御することは、コンピュータビジョンにおいて重要な課題である。
既存の研究は、音声から全体論的共音声のジェスチャーを生成するための予備的な研究を行ったが、音声中の各身体領域の空間的相互作用は、まだほとんど調査されていない。
これにより、音声信号が与えられた身体部分の相互作用が弱まる。
さらに、遅い生成速度は現実世界のデジタルアバターの構築を制限する。
これらの問題を解決するために,空間時間モデルを用いた音声合成のためのラテントショートカット手法である \textbf{GestureLSM} を提案する。
我々は様々な身体領域をトークン化し、空間的・時間的注意と相互作用を明示的にモデル化する。
実時間ジェスチャ生成を実現するために,デノナイジングパターンを検証し,効率的な時間分布を設計し,サンプリングを高速化し,ショートカットモデルの生成品質を向上する。
GestureLSMの有効性を実証し、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
Project Page: https://andypinxinliu.github.io/GestureLSM
関連論文リスト
- Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。
このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文 参考訳(メタデータ) (2024-11-25T15:36:29Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals [5.283718601431859]
エレクトロコルチコグラフィー(ECoG)を用いた脳-コンピュータインタフェースは,医療応用における高性能音声復号化を約束している。
離散コーデックス誘導マスクモデリングにより,領域レベルのトークンに基づくコンテキスト埋め込みを抽出するDu-INモデルを開発した。
本モデルでは,61ワードの分類タスクにおいて,すべてのベースラインを越えながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-19T06:00:36Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z) - SLGTformer: An Attention-Based Approach to Sign Language Recognition [19.786769414376323]
手話は習得が困難で、聞き難い人や話せない人にとって重要な障壁となる。
本稿では,時間グラフの自己認識をデコンストラクトした手話認識手法を提案する。
WLASLデータセットにおけるSLformerの有効性を示す。
論文 参考訳(メタデータ) (2022-12-21T03:30:43Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。