論文の概要: AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars
- arxiv url: http://arxiv.org/abs/2505.15058v1
- Date: Wed, 21 May 2025 03:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.838858
- Title: AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars
- Title(参考訳): AsynFusion: 音声駆動アバターの非結合化のための非同期遅延一貫性モデル
- Authors: Tianbao Zhang, Jian Zhao, Yuer Li, Zheng Zhu, Ping Hu, Zhaoxin Fan, Wenjun Wu, Xuelong Li,
- Abstract要約: 全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 65.53676584955686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body audio-driven avatar pose and expression generation is a critical task for creating lifelike digital humans and enhancing the capabilities of interactive virtual agents, with wide-ranging applications in virtual reality, digital entertainment, and remote communication. Existing approaches often generate audio-driven facial expressions and gestures independently, which introduces a significant limitation: the lack of seamless coordination between facial and gestural elements, resulting in less natural and cohesive animations. To address this limitation, we propose AsynFusion, a novel framework that leverages diffusion transformers to achieve harmonious expression and gesture synthesis. The proposed method is built upon a dual-branch DiT architecture, which enables the parallel generation of facial expressions and gestures. Within the model, we introduce a Cooperative Synchronization Module to facilitate bidirectional feature interaction between the two modalities, and an Asynchronous LCM Sampling strategy to reduce computational overhead while maintaining high-quality outputs. Extensive experiments demonstrate that AsynFusion achieves state-of-the-art performance in generating real-time, synchronized whole-body animations, consistently outperforming existing methods in both quantitative and qualitative evaluations.
- Abstract(参考訳): バーチャルリアリティー、デジタルエンターテイメント、リモートコミュニケーションにおける幅広い応用により、生物のようなデジタル人間を作り、対話型バーチャルエージェントの能力を高めるために、全身のオーディオ駆動アバターのポーズと表現生成が重要なタスクである。
既存のアプローチでは、音声駆動の表情とジェスチャーを独立して生成することが多く、顔要素とジェスチャー要素のシームレスな調整が欠如しており、自然で凝集的なアニメーションは少ない。
この制限に対処するために,拡散変換器を利用した調和表現とジェスチャー合成を実現する新しいフレームワークAsynFusionを提案する。
提案手法は,顔の表情とジェスチャーを並列に生成できるデュアルブランチのDiTアーキテクチャ上に構築されている。
モデル内には,2つのモード間の双方向特徴相互作用を容易にする協調同期モジュールと,高品質な出力を維持しながら計算オーバーヘッドを低減する非同期LCMサンプリング戦略を導入する。
大規模な実験により,AsynFusionは実時間,同期された全身アニメーションの生成において最先端のパフォーマンスを達成し,定量評価と定性評価の両方において既存の手法を一貫して上回っていることが示された。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers [58.86974149731874]
Cosh-DiTは、ハイブリッド拡散変換器を備えた音声合成方式である。
我々は音声拡散変換器を導入し、音声リズムに同期した表現的ジェスチャーダイナミクスを合成する。
生成した音声駆動動作に条件付きリアルな映像合成を行うために,視覚拡散変換器を設計する。
論文 参考訳(メタデータ) (2025-03-13T01:36:05Z) - SyncDiff: Synchronized Motion Diffusion for Multi-Body Human-Object Interaction Synthesis [22.14972920585117]
シンクロナイズドモーション拡散戦略を用いた多体インタラクション合成法SyncDiffを紹介する。
動きの忠実度を高めるため,周波数領域の動作分解手法を提案する。
また、異なる身体運動の同期を強調するための新しいアライメントスコアも導入する。
論文 参考訳(メタデータ) (2024-12-28T10:12:12Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。