論文の概要: LiveGesture Streamable Co-Speech Gesture Generation Model
- arxiv url: http://arxiv.org/abs/2604.10927v1
- Date: Mon, 13 Apr 2026 02:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.283399
- Title: LiveGesture Streamable Co-Speech Gesture Generation Model
- Title(参考訳): LiveGesture Streamable Co-Speech Gesture Generation Model
- Authors: Muhammad Usama Saleem, Mayur Jagdishbhai Patel, Ekkasit Pinyoanuntapong, Zhongxing Qin, Li Yang, Hongfei Xue, Ahmed Helmy, Chen Chen, Pu Wang,
- Abstract要約: LiveGestureは、音声駆動のフルボディジェスチャー生成フレームワークである。
ルックアヘッドはゼロで動作し、任意のシーケンス長をサポートする。
一貫性があり、多様性があり、ビート同期のフルボディジェスチャーをリアルタイムで生成する。
- 参考スコア(独自算出の注目度): 15.008891901028333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose LiveGesture, the first fully streamable, speech-driven full-body gesture generation framework that operates with zero look-ahead and supports arbitrary sequence length. Unlike existing co-speech gesture methods, which are designed for offline generation and either treat body regions independently or entangle all joints within a single model, LiveGesture is built from the ground up for causal, region-coordinated motion generation. LiveGesture consists of two main modules: the Streamable Vector Quantized Motion Tokenizer (SVQ) and the Hierarchical Autoregressive Transformer (HAR). The SVQ tokenizer converts the motion sequence of each body region into causal, discrete motion tokens, enabling real-time, streamable token decoding. On top of SVQ, HAR employs region-expert autoregressive (xAR) transformers to model expressive, fine-grained motion dynamics for each body region. A causal spatio-temporal fusion module (xAR Fusion) then captures and integrates correlated motion dynamics across regions. Both xAR and xAR Fusion are conditioned on live, continuously arriving audio signals encoded by a streamable causal audio encoder. To enhance robustness under streaming noise and prediction errors, we introduce autoregressive masking training, which leverages uncertainty-guided token masking and random region masking to expose the model to imperfect, partially erroneous histories during training. Experiments on the BEAT2 dataset demonstrate that LiveGesture produces coherent, diverse, and beat-synchronous full-body gestures in real time, matching or surpassing state-of-the-art offline methods under true zero look-ahead conditions.
- Abstract(参考訳): そこで我々はLiveGestureを提案する。LiveGestureは、ゼロルックアヘッドで動作し、任意のシーケンス長をサポートする、最初の完全にストリーミング可能な、音声駆動のフルボディジェスチャー生成フレームワークである。
オフライン生成用に設計され、身体領域を独立に扱うか、1つのモデル内で全ての関節を絡める既存の音声ジェスチャーとは異なり、LiveGestureは、因果的、領域調整されたモーション生成のためにゼロから構築されている。
LiveGesture は Streamable Vector Quantized Motion Tokenizer (SVQ) と Hierarchical Autoregressive Transformer (HAR) の2つの主要モジュールで構成されている。
SVQトークンライザは、各身体領域の動作シーケンスを因果的、離散的な動作トークンに変換し、リアルタイム、ストリーム可能なトークン復号を可能にする。
SVQの上に、HARは、各体領域の表現的、きめ細かい運動力学をモデル化するために、領域専門の自己回帰変換器(xAR)を採用している。
因果時空間融合モジュール(xAR Fusion)はその後、領域間の相関運動力学を捕捉し、統合する。
xARとxAR Fusionはどちらも、ストリーミング可能な因果オーディオエンコーダによって符号化された、継続的に到着するオーディオ信号に条件付けされている。
ストリーミングノイズや予測誤差下でのロバスト性を高めるために,不確実性誘導トークンマスキングとランダム領域マスキングを利用した自己回帰マスキングトレーニングを導入する。
BEAT2データセットの実験では、LiveGestureは、真のゼロルックアヘッド条件下で、最先端のオフラインメソッドをマッチングまたは超越して、コヒーレントで多様性があり、ビート同期のフルボディジェスチャーをリアルタイムで生成することを示した。
関連論文リスト
- PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition [42.434871160461206]
既存のモーションオートエンコーダは各フレームを1つのモノリシック潜在ベクトルに圧縮する。
PRISMを提示し、各課題に専用のコントリビューションで対処する。
本研究では,テキスト・ツー・モーション,ポーズ・コンディショニング,自己回帰的逐次生成,ナラティブ・モーション・コンポジションをシームレスに扱う単一動作生成基盤モデルを訓練する。
論文 参考訳(メタデータ) (2026-03-09T16:41:15Z) - DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis [15.304037069236536]
DEMOは、音声駆動型トーキングヘッドビデオ合成のためのフローマッチング生成フレームワークである。
唇の動き、頭部のポーズ、視線を高度に制御する。
論文 参考訳(メタデータ) (2025-10-12T15:10:33Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization [8.605691647343065]
既存の手法では,ジェスチャ生成にベクトル量子化トークンを伴って自己回帰モデルを用いるのが一般的である。
我々は、離散トークン化に頼ることなく、高品質で多様な音声合成のための新しいマルチモーダルアライメントフレームワークMAGを提案する。
論文 参考訳(メタデータ) (2025-03-18T09:02:02Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。