論文の概要: READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
- arxiv url: http://arxiv.org/abs/2508.03457v2
- Date: Wed, 06 Aug 2025 11:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.40919
- Title: READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation
- Title(参考訳): READ: 音声駆動型トーキングヘッド生成のためのリアルタイムかつ効率的な非同期拡散
- Authors: Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu,
- Abstract要約: 本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 55.58089937219475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of diffusion models has brought significant advances to the field of audio-driven talking head generation. However, the extremely slow inference speed severely limits the practical implementation of diffusion-based talking head generation models. In this study, we propose READ, the first real-time diffusion-transformer-based talking head generation framework. Our approach first learns a spatiotemporal highly compressed video latent space via a temporal VAE, significantly reducing the token count to accelerate generation. To achieve better audio-visual alignment within this compressed latent space, a pre-trained Speech Autoencoder (SpeechAE) is proposed to generate temporally compressed speech latent codes corresponding to the video latent space. These latent representations are then modeled by a carefully designed Audio-to-Video Diffusion Transformer (A2V-DiT) backbone for efficient talking head synthesis. Furthermore, to ensure temporal consistency and accelerated inference in extended generation, we propose a novel asynchronous noise scheduler (ANS) for both the training and inference process of our framework. The ANS leverages asynchronous add-noise and asynchronous motion-guided generation in the latent space, ensuring consistency in generated video clips. Experimental results demonstrate that READ outperforms state-of-the-art methods by generating competitive talking head videos with significantly reduced runtime, achieving an optimal balance between quality and speed while maintaining robust metric stability in long-time generation.
- Abstract(参考訳): 拡散モデルの導入は、音声駆動音声ヘッド生成の分野で大きな進歩をもたらした。
しかし、非常に遅い推論速度は拡散に基づく音声ヘッド生成モデルの実践的実装を著しく制限する。
本研究では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法は, 時間的VAEを用いて, 時空間に高度に圧縮されたビデオ潜時空間を学習し, トークン数を大幅に削減し, 生成を加速する。
この圧縮潜時空間内での音声・視覚的アライメントを改善するため、ビデオ潜時空間に対応する時間圧縮音声潜時符号を生成するために、事前訓練された音声自動符号化器(SpeechAE)を提案する。
これらの潜在表現は、音声からビデオへの拡散変換器(A2V-DiT)のバックボーンによってモデル化され、効率的な音声ヘッド合成を行う。
さらに、拡張世代における時間的一貫性と推論の高速化を確保するため、我々のフレームワークのトレーニングと推論のプロセスにおいて、新しい非同期ノイズスケジューラ(ANS)を提案する。
ANSは、潜在空間における非同期のアドオンと非同期のモーションガイド生成を活用し、生成されたビデオクリップの一貫性を確保する。
実験結果から,READは,実行時間を大幅に短縮した競合対話ヘッドビデオを生成し,長時間の安定度を維持しつつ,品質と速度の最適バランスを実現することにより,最先端の手法よりも優れることが示された。
関連論文リスト
- MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding [21.682444278458433]
Speech Speculative Decoding (SSD) は自己回帰音声合成高速化のための新しいフレームワークである。
SSDは従来の自己回帰デコードに比べて1.4倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-05-21T11:17:04Z) - Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文 参考訳(メタデータ) (2025-03-13T15:54:45Z) - Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis [27.43583075023949]
Dittoは拡散型トーキングヘッドフレームワークで、きめ細かい制御とリアルタイム推論を可能にする。
我々は,Dittoが魅力的な音声ヘッドビデオを生成し,制御性とリアルタイム性能の両面で優位性を示すことを示す。
論文 参考訳(メタデータ) (2024-11-29T07:01:31Z) - Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。
第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。
第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文 参考訳(メタデータ) (2024-08-03T10:19:38Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。