論文の概要: SoulX-FlashHead: Oracle-guided Generation of Infinite Real-time Streaming Talking Heads
- arxiv url: http://arxiv.org/abs/2602.07449v3
- Date: Wed, 11 Feb 2026 12:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:19.943137
- Title: SoulX-FlashHead: Oracle-guided Generation of Infinite Real-time Streaming Talking Heads
- Title(参考訳): SoulX-FlashHead:Oracleが指導する無限のリアルタイムストリーミングヘッド
- Authors: Tan Yu, Qian Qiao, Le Shen, Ke Zhou, Jincheng Hu, Dian Sheng, Bo Hu, Haoming Qin, Jun Gao, Changhai Zhou, Shunshun Yin, Siyuan Liu,
- Abstract要約: 本稿では,リアルタイム,無限長,高忠実なストリーミングビデオ生成のための統合フレームワークであるSoulX-FlashHeadを提案する。
ストリーミングシナリオにおける音声機能の不安定性に対処するために,テンポラルオーディオコンテキストキャッシュ機構を備えたストリーム対応時空間事前学習を導入する。
VividHeadは大規模で高品質なデータセットで、厳格なトレーニングをサポートするために、782時間の厳格なアライメントされた映像を格納しています。
- 参考スコア(独自算出の注目度): 19.531644258572353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving a balance between high-fidelity visual quality and low-latency streaming remains a formidable challenge in audio-driven portrait generation. Existing large-scale models often suffer from prohibitive computational costs, while lightweight alternatives typically compromise on holistic facial representations and temporal stability. In this paper, we propose SoulX-FlashHead, a unified 1.3B-parameter framework designed for real-time, infinite-length, and high-fidelity streaming video generation. To address the instability of audio features in streaming scenarios, we introduce Streaming-Aware Spatiotemporal Pre-training equipped with a Temporal Audio Context Cache mechanism, which ensures robust feature extraction from short audio fragments. Furthermore, to mitigate the error accumulation and identity drift inherent in long-sequence autoregressive generation, we propose Oracle-Guided Bidirectional Distillation, leveraging ground-truth motion priors to provide precise physical guidance. We also present VividHead, a large-scale, high-quality dataset containing 782 hours of strictly aligned footage to support robust training. Extensive experiments demonstrate that SoulX-FlashHead achieves state-of-the-art performance on HDTF and VFHQ benchmarks. Notably, our Lite variant achieves an inference speed of 96 FPS on a single NVIDIA RTX 4090, facilitating ultra-fast interaction without sacrificing visual coherence.
- Abstract(参考訳): 高忠実度視覚品質と低レイテンシストリーミングのバランスを取ることは、オーディオ駆動のポートレート生成において深刻な課題である。
既存の大規模モデルは、しばしば禁止的な計算コストに悩まされるが、軽量な代替手段は、概して全体的顔表現と時間的安定性に妥協する。
本稿では,リアルタイム,無限長,高忠実なストリーミングビデオ生成用に設計された1.3Bパラメータ統合フレームワークであるSoulX-FlashHeadを提案する。
ストリーミングシナリオにおける音声機能の不安定性を解決するため,短時間の音声断片からロバストな特徴抽出を可能にするテンポラルオーディオコンテキストキャッシュ機構を備えたストリームアウェア時空間事前学習を導入する。
さらに, 長期間の自己回帰生成に固有の誤差蓄積とアイデンティティドリフトを緩和するため, 精密な物理ガイダンスを提供するために, 地表面の運動を前もって利用したOracle-Guided Bidirectional Distillationを提案する。
VividHeadは大規模で高品質なデータセットで、厳格なトレーニングをサポートするために、782時間の厳格なアライメントされた映像を格納しています。
大規模な実験により、SoulX-FlashHeadはHDTFとVFHQベンチマークで最先端のパフォーマンスを達成した。
特に、私たちのLiteは、単一のNVIDIA RTX 4090上で96FPSの推論速度を実現し、視覚的コヒーレンスを犠牲にすることなく超高速なインタラクションを可能にしています。
関連論文リスト
- Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - LongLive: Real-time Interactive Long Video Generation [68.45945318075432]
LongLiveはリアルタイムおよびインタラクティブなロングビデオ生成のためのフレームレベルの自動回帰フレームワークである。
LongLiveは1つのNVIDIA H100上で20.7 FPSを持続し、短いビデオと長いビデオの両方でVBenchで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-26T17:48:24Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models [17.858801012726445]
拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。
本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。
本モデルでは,解像度384x384,解像度512x512で最大78FPS,ビデオ生成遅延140msと215msで最大78FPSを実現している。
論文 参考訳(メタデータ) (2025-06-06T07:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。