論文の概要: UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars
- arxiv url: http://arxiv.org/abs/2605.14731v1
- Date: Thu, 14 May 2026 11:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.802818
- Title: UMo: Unified Sparse Motion Modeling for Real-Time Co-Speech Avatars
- Title(参考訳): UMo:リアルタイムコ音声アバターのための統一スパース運動モデリング
- Authors: Xiaoyu Zhan, Xinyu Fu, Chenghao Yang, Xiaohong Zhang, Dongjie Fu, Pengcheng Fang, Tengjiao Sun, Xiaohao Cai, Hansung Kim, Yuanqi Li, Jie Guo, Yanwen Guo,
- Abstract要約: UMoは、リアルタイム音声アバターのための統一されたスパースモーションモデリングアーキテクチャである。
リアルタイムの高密度再構成を効率よく行い、時間的コヒーレントかつ高忠実なアニメーション生成を可能にする。
厳密なレイテンシ制約の下でも、きめ細かな音声-動きのアライメントを保ちます。
- 参考スコア(独自算出の注目度): 25.55654497627044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-driven gestures and facial animations are fundamental to expressive digital avatars in games, virtual production, and interactive media. However, existing methods are either limited to a single modality for audio motion alignment, failing to fully utilize the potential of massive human motion data, or are constrained by the representation ability and throughput of multimodal models, which makes it difficult to achieve high-quality motion generation or real-time performance. We present UMo, a unified sparse motion modeling architecture for real-time co-speech avatars, which processes text, audio, and motion tokens within a unified formulation. Leveraging a spatially sparse Mixture-of-Experts framework and a temporally sparse, keyframe-centric design, UMo efficiently performs real-time dense reconstruction, enabling temporally coherent and high-fidelity animation generation for both facial expressions and gestures. Furthermore, we implement a multi-stage training strategy with targeted audio augmentation to enhance acoustic diversity and semantic consistency. Consequently, UMo preserves fine-grained speech-motion alignment even under strict latency constraints. Extensive quantitative and qualitative evaluations show that UMo achieves better output quality under low latency and real-time performance constraints, offering a practical solution for high-fidelity real-time co-speech avatars.
- Abstract(参考訳): 音声によるジェスチャーと顔のアニメーションは、ゲーム、バーチャルプロダクション、インタラクティブメディアにおける表現力のあるデジタルアバターの基本である。
しかし、既存の手法は、音声のアライメントの単一モードに制限されており、巨大な人間のモーションデータのポテンシャルを十分に活用できないか、マルチモーダルモデルの表現能力やスループットに制約されているため、高品質なモーション生成やリアルタイムのパフォーマンスを達成するのが困難である。
我々は,テキスト,音声,およびモーショントークンを統一的な定式化の中で処理する,リアルタイム音声アバターのための統一されたスパース動作モデリングアーキテクチャであるUMoを提案する。
空間的にスパースなMixture-of-Expertsフレームワークと、時間的にスパースなキーフレーム中心の設計を活用して、UMoはリアルタイムに高密度な再構成を行い、顔の表情とジェスチャーの両方に対して時間的にコヒーレントかつ高忠実なアニメーション生成を可能にする。
さらに,音質の多様性と意味的整合性を高めるために,ターゲット音の増大を目標とした多段階学習戦略を実装した。
したがって、UMoは、厳密なレイテンシ制約の下でも、きめ細かな音声-動きのアライメントを保っている。
広汎な定量的および定性的評価により、UMoは低レイテンシおよびリアルタイム性能制約下での出力品質の向上を実現し、高忠実なリアルタイムコ音声アバターの実用的なソリューションを提供する。
関連論文リスト
- Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval [16.85147888618743]
因果顔の動き生成をパーソナライズするためのエンドツーエンドの因果的枠組みを提案する。
本手法は, リップ同期の精度, アイデンティティの整合性, 認識リアリズムにおいて, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-04-26T13:15:08Z) - StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars [32.75338796722652]
本研究では,リアルタイム対話型ストリーミングに高忠実度映像拡散モデルを適用するための2段階の自己回帰適応・加速フレームワークを提案する。
自然な話し方と聞き方の両方をコヒーレントなジェスチャーで生成できるワンショット対話型アバターモデルを開発した。
提案手法は, 生成品質, リアルタイム効率, インタラクション自然性において, 既存のアプローチを超越して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-26T15:41:24Z) - Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model [73.30619724574642]
音声駆動型3D顔アニメーションは、音声入力によって駆動される現実的で同期された顔の動きを生成することを目的としている。
近年,3次元顔アニメーションに音声条件拡散モデルが採用されている。
本稿では,ストリーミング方式で音声を処理する自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:55:16Z) - Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer [36.828476646865305]
RAP(Real-time Audio-driven Portrait animation)は,リアルタイム制約下で高品質な音声画像を生成するための統合フレームワークである。
RAPは正確な音声駆動制御を実現し、長期の時間的ドリフトを緩和し、高い視力を維持する。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。