論文の概要: StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model
- arxiv url: http://arxiv.org/abs/2511.14223v2
- Date: Wed, 19 Nov 2025 03:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.131238
- Title: StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model
- Title(参考訳): StreamingTalker: 自己回帰拡散モデルを用いたオーディオ駆動型3次元顔アニメーション
- Authors: Yifan Yang, Zhi Cen, Sida Peng, Xiangwei Chen, Yifu Deng, Xinyu Zhu, Fan Jia, Xiaowei Zhou, Hujun Bao,
- Abstract要約: 音声駆動型3D顔アニメーションは、音声入力によって駆動される現実的で同期された顔の動きを生成することを目的としている。
近年,3次元顔アニメーションに音声条件拡散モデルが採用されている。
本稿では,ストリーミング方式で音声を処理する自己回帰拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 73.30619724574642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the task of speech-driven 3D facial animation, which aims to generate realistic and synchronized facial motions driven by speech inputs. Recent methods have employed audio-conditioned diffusion models for 3D facial animation, achieving impressive results in generating expressive and natural animations. However, these methods process the whole audio sequences in a single pass, which poses two major challenges: they tend to perform poorly when handling audio sequences that exceed the training horizon and will suffer from significant latency when processing long audio inputs. To address these limitations, we propose a novel autoregressive diffusion model that processes input audio in a streaming manner. This design ensures flexibility with varying audio lengths and achieves low latency independent of audio duration. Specifically, we select a limited number of past frames as historical motion context and combine them with the audio input to create a dynamic condition. This condition guides the diffusion process to iteratively generate facial motion frames, enabling real-time synthesis with high-quality results. Additionally, we implemented a real-time interactive demo, highlighting the effectiveness and efficiency of our approach. We will release the code at https://zju3dv.github.io/StreamingTalker/.
- Abstract(参考訳): 本稿では,音声入力によって駆動される現実的かつ同期的な顔の動きを生成することを目的とした,音声駆動型3次元顔アニメーションの課題に焦点を当てた。
近年,3次元顔アニメーションには音声条件拡散モデルが採用され,表現的・自然なアニメーション生成に顕著な成果を上げている。
しかし、これらの手法は1回のパスで音声シーケンス全体を処理し、トレーニングの地平線を超えるオーディオシーケンスを扱う場合や、長いオーディオ入力を処理する場合の遅延に悩まされる場合など、2つの大きな課題を生じさせる。
これらの制約に対処するために,入力音声をストリーミングで処理する新しい自己回帰拡散モデルを提案する。
この設計により、様々なオーディオ長の柔軟性が保証され、オーディオ長に依存しない低レイテンシを実現する。
具体的には,過去のフレームを履歴的動きの文脈として限定的に選択し,音声入力と組み合わせて動的条件を生成する。
この条件は拡散過程を誘導し、顔の動きフレームを反復的に生成し、高品質な結果でリアルタイムな合成を可能にする。
さらに、リアルタイムのインタラクティブなデモを実施し、このアプローチの有効性と効率を強調しました。
コードはhttps://zju3dv.github.io/StreamingTalker/で公開します。
関連論文リスト
- Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。
さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。
提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-29T12:08:02Z) - Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation [18.45773436423025]
リアルタイム・オーディオ駆動型ポートレートアニメーション(a.k.a, talking head)のための最初の自動回帰フレームワークを紹介する。
本稿では,自動回帰動作生成を備えた最初のストリーミングオーディオ駆動プロトライトアニメーションフレームワークであるTellerを提案する。
論文 参考訳(メタデータ) (2025-03-24T08:16:47Z) - Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [15.841490425454344]
本稿では,Loopy という,エンドツーエンドの音声のみの条件付きビデオ拡散モデルを提案する。
具体的には,ループ内時間モジュールとオーディオ・トゥ・ラテントモジュールを設計し,長期動作情報を活用する。
論文 参考訳(メタデータ) (2024-09-04T11:55:14Z) - KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。