論文の概要: Audio Driven Real-Time Facial Animation for Social Telepresence
- arxiv url: http://arxiv.org/abs/2510.01176v1
- Date: Wed, 01 Oct 2025 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.716223
- Title: Audio Driven Real-Time Facial Animation for Social Telepresence
- Title(参考訳): ソーシャルテレプレゼンスのための音声駆動リアルタイム顔アニメーション
- Authors: Jiye Lee, Chenghui Li, Linh Tran, Shih-En Wei, Jason Saragih, Alexander Richard, Hanbyul Joo, Shaojie Bai,
- Abstract要約: 最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
- 参考スコア(独自算出の注目度): 65.66220599734338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an audio-driven real-time system for animating photorealistic 3D facial avatars with minimal latency, designed for social interactions in virtual reality for anyone. Central to our approach is an encoder model that transforms audio signals into latent facial expression sequences in real time, which are then decoded as photorealistic 3D facial avatars. Leveraging the generative capabilities of diffusion models, we capture the rich spectrum of facial expressions necessary for natural communication while achieving real-time performance (<15ms GPU time). Our novel architecture minimizes latency through two key innovations: an online transformer that eliminates dependency on future inputs and a distillation pipeline that accelerates iterative denoising into a single step. We further address critical design challenges in live scenarios for processing continuous audio signals frame-by-frame while maintaining consistent animation quality. The versatility of our framework extends to multimodal applications, including semantic modalities such as emotion conditions and multimodal sensors with head-mounted eye cameras on VR headsets. Experimental results demonstrate significant improvements in facial animation accuracy over existing offline state-of-the-art baselines, achieving 100 to 1000 times faster inference speed. We validate our approach through live VR demonstrations and across various scenarios such as multilingual speeches.
- Abstract(参考訳): 我々は,バーチャルリアリティーにおけるソーシャルインタラクションのために設計された,最小のレイテンシで光リアルな3D顔アバターをアニメーションする,オーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルであり、それをフォトリアリスティックな3D顔アバターとしてデコードする。
拡散モデルの生成能力を生かし,実時間性能(15ms GPU時間)を達成しつつ,自然なコミュニケーションに必要な表情の豊富なスペクトルを捉える。
我々の新しいアーキテクチャは、将来の入力への依存をなくすオンライントランスフォーマーと、反復的なデノベーションを1ステップに加速する蒸留パイプラインという、2つの重要なイノベーションを通じてレイテンシを最小限にする。
さらに,一貫したアニメーション品質を維持しつつ,連続的な音声信号をフレーム単位で処理するためのライブシナリオにおける重要な設計課題に対処する。
私たちのフレームワークの汎用性は、感情条件のようなセマンティックなモーダル性や、ヘッドマウント型アイカメラをVRヘッドセットに搭載したマルチモーダルセンサーなど、マルチモーダルアプリケーションにまで拡張されます。
実験の結果,既存のオフラインベースラインに比べて顔のアニメーション精度が大幅に向上し,推論速度が100~1000倍に向上した。
実際のVRデモや,多言語音声などさまざまなシナリオを通じて,我々のアプローチを検証する。
関連論文リスト
- VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文 参考訳(メタデータ) (2025-07-08T15:04:17Z) - Universal Facial Encoding of Codec Avatars from VR Headsets [32.60236093340087]
コンシューマー向けVRヘッドセットのヘッドマウントカメラ(HMC)を用いて,光リアルアバターをリアルタイムにアニメーションする手法を提案する。
本稿では,実行時の効率向上に最小限のコストで精度を高める軽量な式キャリブレーション機構を提案する。
論文 参考訳(メタデータ) (2024-07-17T22:08:15Z) - VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time [35.43018966749148]
静止画像と音声音声クリップを1つずつ与えることで,視覚的情緒的スキル(VAS)をアピールするライフライクな発話顔を生成するためのフレームワークであるVASAを紹介した。
VASA-1は、音声と精巧に同期する唇の動きを発生させるだけでなく、顔のニュアンスや自然な頭部の動きを生じさせる。
論文 参考訳(メタデータ) (2024-04-16T15:43:22Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。