論文の概要: REST: Diffusion-based Real-time End-to-end Streaming Talking Head Generation via ID-Context Caching and Asynchronous Streaming Distillation
- arxiv url: http://arxiv.org/abs/2512.11229v1
- Date: Fri, 12 Dec 2025 02:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.63018
- Title: REST: Diffusion-based Real-time End-to-end Streaming Talking Head Generation via ID-Context Caching and Asynchronous Streaming Distillation
- Title(参考訳): REST: IDコンテキストキャッシングと非同期ストリーミング蒸留による拡散ベースのリアルタイムエンドツーエンドストリーミングヘッド生成
- Authors: Haotian Wang, Yuzhe Weng, Xinyi Yu, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Qingfeng Liu,
- Abstract要約: RESTは、トーキングヘッドジェネレーションのための自動回帰と拡散ベースのアプローチのギャップを埋めます。
RESTは、生成速度と全体的なパフォーマンスの両方において最先端のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 41.34425148954312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have significantly advanced the field of talking head generation. However, the slow inference speeds and non-autoregressive paradigms severely constrain the application of diffusion-based THG models. In this study, we propose REST, the first diffusion-based, real-time, end-to-end streaming audio-driven talking head generation framework. To support real-time end-to-end generation, a compact video latent space is first learned through high spatiotemporal VAE compression. Additionally, to enable autoregressive streaming within the compact video latent space, we introduce an ID-Context Cache mechanism, which integrates ID-Sink and Context-Cache principles to key-value caching for maintaining temporal consistency and identity coherence during long-time streaming generation. Furthermore, an Asynchronous Streaming Distillation (ASD) training strategy is proposed to mitigate error accumulation in autoregressive generation and enhance temporal consistency, which leverages a non-streaming teacher with an asynchronous noise schedule to supervise the training of the streaming student model. REST bridges the gap between autoregressive and diffusion-based approaches, demonstrating substantial value for applications requiring real-time talking head generation. Experimental results demonstrate that REST outperforms state-of-the-art methods in both generation speed and overall performance.
- Abstract(参考訳): 拡散モデルは、音声ヘッド生成の分野を著しく進歩させてきた。
しかし、遅い推論速度と非自己回帰パラダイムは拡散に基づくTHGモデルの適用を厳しく制限する。
本研究では,最初の拡散ベース,リアルタイム,エンドツーエンドのストリーミング音声駆動音声ヘッド生成フレームワークであるRESTを提案する。
リアルタイムのエンドツーエンド生成をサポートするために、高時空間のVAE圧縮により、コンパクトなビデオ潜時空間を初めて学習する。
さらに、コンパクトなビデオ遅延空間内で自動回帰ストリーミングを可能にするために、ID-SinkとContext-Cacheの原則をキーバリューキャッシュに統合し、長時間ストリーミング生成時の時間的一貫性とアイデンティティの一貫性を維持するID-Context Cache機構を導入する。
さらに、自動回帰生成におけるエラー蓄積を緩和し、時間的一貫性を高めるために、非同期のノイズスケジュールを持つ非ストリーミング教師を活用して、ストリーミング学生モデルのトレーニングを監督する非同期ストリーミング蒸留(ASD)訓練戦略を提案する。
RESTは自動回帰と拡散ベースのアプローチのギャップを埋め、リアルタイムのトーキングヘッド生成を必要とするアプリケーションにかなりの価値を誇示します。
実験の結果、RESTは生成速度と全体的なパフォーマンスの両方において最先端のメソッドよりも優れています。
関連論文リスト
- READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。