論文の概要: SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation
- arxiv url: http://arxiv.org/abs/2512.23379v3
- Date: Tue, 06 Jan 2026 04:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.347324
- Title: SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation
- Title(参考訳): SoulX-FlashTalk: 自己補正二方向蒸留によるオーディオ駆動型アバターのリアルタイムストリーミング
- Authors: Le Shen, Qian Qiao, Tan Yu, Ke Zhou, Tianhang Yu, Yu Zhan, Zhenjie Wang, Ming Tao, Shunshun Yin, Siyuan Liu,
- Abstract要約: textbfX-FlashTalkは、textbf32 FPSのリアルタイムスループットを達成しながら、textbfsub秒の起動遅延(0.87秒)を達成する14Bスケールのシステムである。
SoulX-FlashTalkは、Textbf32 FPSのリアルタイムスループットを達成しつつ、Textbfsub秒の起動遅延(0.87秒)を達成する最初の14Bスケールシステムである。
- 参考スコア(独自算出の注目度): 16.34443339642213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying massive diffusion models for real-time, infinite-duration, audio-driven avatar generation presents a significant engineering challenge, primarily due to the conflict between computational load and strict latency constraints. Existing approaches often compromise visual fidelity by enforcing strictly unidirectional attention mechanisms or reducing model capacity. To address this problem, we introduce \textbf{SoulX-FlashTalk}, a 14B-parameter framework optimized for high-fidelity real-time streaming. Diverging from conventional unidirectional paradigms, we use a \textbf{Self-correcting Bidirectional Distillation} strategy that retains bidirectional attention within video chunks. This design preserves critical spatiotemporal correlations, significantly enhancing motion coherence and visual detail. To ensure stability during infinite generation, we incorporate a \textbf{Multi-step Retrospective Self-Correction Mechanism}, enabling the model to autonomously recover from accumulated errors and preventing collapse. Furthermore, we engineered a full-stack inference acceleration suite incorporating hybrid sequence parallelism, Parallel VAE, and kernel-level optimizations. Extensive evaluations confirm that SoulX-FlashTalk is the first 14B-scale system to achieve a \textbf{sub-second start-up latency (0.87s)} while reaching a real-time throughput of \textbf{32 FPS}, setting a new standard for high-fidelity interactive digital human synthesis.
- Abstract(参考訳): リアルタイム、無限デュレーション、オーディオ駆動アバター生成のための大規模な拡散モデルを展開することは、主に計算負荷と厳密なレイテンシの制約の相違により、重要なエンジニアリング上の課題となる。
既存のアプローチは、厳密な一方向の注意機構を強制したり、モデルのキャパシティを低下させることによって、視覚的忠実度を損なうことが多い。
この問題に対処するために,高忠実度リアルタイムストリーミングに最適化された14Bパラメータフレームワークである \textbf{SoulX-FlashTalk} を導入する。
従来の一方向のパラダイムとは違って,ビデオチャンク内の双方向の注意を維持できる「textbf{Self-correcting Bidirectional Distillation}」戦略を採用している。
この設計は、重要な時空間相関を保ち、動きのコヒーレンスと視覚的詳細を著しく向上させる。
無限生成時の安定性を確保するために,<textbf{Multi-step Retrospective Self-Correction Mechanism} を導入する。
さらに、ハイブリッドシーケンス並列性、並列VAE、カーネルレベルの最適化を組み込んだフルスタック推論高速化スイートを設計した。
SoulX-FlashTalk は \textbf{sub-second start-up latency (0.87s) を達成する最初の14Bスケールシステムであり、リアルタイムスループットは \textbf{32 FPS} に到達し、高忠実な対話型デジタル人間の合成の新しい標準となる。
関連論文リスト
- Towards Stable and Structured Time Series Generation with Perturbation-Aware Flow Matching [16.17115009663765]
安定かつ構造的に一貫した時系列生成を保証するために、摂動軌道をモデル化するフレームワークである textbfPAFM を導入する。
このフレームワークは摂動誘導訓練を取り入れ、局所的な乱れをシミュレートし、二経路速度場を利用して摂動下での軌道偏差を捉える。
非条件および条件生成タスクの両方の実験において、PAFMは強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-18T13:30:56Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [67.15451442018258]
拡散変換器は素晴らしいビデオ生成能力を示すが、その計算とメモリの禁止コストは実際の展開を妨げる。
モデル量子化とアテンションスパシフィケーションは圧縮に有望な2つの方向であるが、それぞれがアグレッシブ圧縮の下で深刻な性能劣化を被っている。
モデル量子化と注意散布を統合した統合フレームワークである textbfQuantSparse を提案する。
論文 参考訳(メタデータ) (2025-09-28T06:49:44Z) - SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文 参考訳(メタデータ) (2025-09-19T02:41:37Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [26.365397387678396]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。
本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。
ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文 参考訳(メタデータ) (2025-05-20T06:58:40Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。