Fugu-MT 論文翻訳(概要): SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation

論文の概要: SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation

arxiv url: http://arxiv.org/abs/2512.23379v3
Date: Tue, 06 Jan 2026 04:58:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-07 13:14:29.347324
Title: SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation
Title（参考訳）: SoulX-FlashTalk: 自己補正二方向蒸留によるオーディオ駆動型アバターのリアルタイムストリーミング
Authors: Le Shen, Qian Qiao, Tan Yu, Ke Zhou, Tianhang Yu, Yu Zhan, Zhenjie Wang, Ming Tao, Shunshun Yin, Siyuan Liu,
Abstract要約: textbfX-FlashTalkは、textbf32 FPSのリアルタイムスループットを達成しながら、textbfsub秒の起動遅延(0.87秒)を達成する14Bスケールのシステムである。 SoulX-FlashTalkは、Textbf32 FPSのリアルタイムスループットを達成しつつ、Textbfsub秒の起動遅延(0.87秒)を達成する最初の14Bスケールシステムである。
参考スコア（独自算出の注目度）: 16.34443339642213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying massive diffusion models for real-time, infinite-duration, audio-driven avatar generation presents a significant engineering challenge, primarily due to the conflict between computational load and strict latency constraints. Existing approaches often compromise visual fidelity by enforcing strictly unidirectional attention mechanisms or reducing model capacity. To address this problem, we introduce \textbf{SoulX-FlashTalk}, a 14B-parameter framework optimized for high-fidelity real-time streaming. Diverging from conventional unidirectional paradigms, we use a \textbf{Self-correcting Bidirectional Distillation} strategy that retains bidirectional attention within video chunks. This design preserves critical spatiotemporal correlations, significantly enhancing motion coherence and visual detail. To ensure stability during infinite generation, we incorporate a \textbf{Multi-step Retrospective Self-Correction Mechanism}, enabling the model to autonomously recover from accumulated errors and preventing collapse. Furthermore, we engineered a full-stack inference acceleration suite incorporating hybrid sequence parallelism, Parallel VAE, and kernel-level optimizations. Extensive evaluations confirm that SoulX-FlashTalk is the first 14B-scale system to achieve a \textbf{sub-second start-up latency (0.87s)} while reaching a real-time throughput of \textbf{32 FPS}, setting a new standard for high-fidelity interactive digital human synthesis.
Abstract（参考訳）: リアルタイム、無限デュレーション、オーディオ駆動アバター生成のための大規模な拡散モデルを展開することは、主に計算負荷と厳密なレイテンシの制約の相違により、重要なエンジニアリング上の課題となる。既存のアプローチは、厳密な一方向の注意機構を強制したり、モデルのキャパシティを低下させることによって、視覚的忠実度を損なうことが多い。この問題に対処するために,高忠実度リアルタイムストリーミングに最適化された14Bパラメータフレームワークである \textbf{SoulX-FlashTalk} を導入する。従来の一方向のパラダイムとは違って,ビデオチャンク内の双方向の注意を維持できる「textbf{Self-correcting Bidirectional Distillation}」戦略を採用している。この設計は、重要な時空間相関を保ち、動きのコヒーレンスと視覚的詳細を著しく向上させる。無限生成時の安定性を確保するために,<textbf{Multi-step Retrospective Self-Correction Mechanism} を導入する。さらに、ハイブリッドシーケンス並列性、並列VAE、カーネルレベルの最適化を組み込んだフルスタック推論高速化スイートを設計した。 SoulX-FlashTalk は \textbf{sub-second start-up latency (0.87s) を達成する最初の14Bスケールシステムであり、リアルタイムスループットは \textbf{32 FPS} に到達し、高忠実な対話型デジタル人間の合成の新しい標準となる。

関連論文リスト

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents [10.559617160878227]
GUIPrunerは、高解像度のGUIナビゲーションに適したトレーニング不要のフレームワークである。時間分解能(TAR)とSSP(Stratified Structure-Aware Pruning)の相乗効果常に最先端の性能を達成し、高解像度圧縮下での大規模モデルで観測される崩壊を効果的に防止する。
論文参考訳（メタデータ） (2026-02-26T17:12:40Z)
EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation [8.795438456031512]
マルチモーダル生成モデルは、高い視覚的品質を達成するが、その禁止されたレイテンシと時間的安定性は、リアルタイムなデプロイメントを妨げている。ストリーミング推論はこれらの問題を悪化させ、ぼやけ、時間的ドリフト、唇のデクロナイゼーションといったマルチモーダルな曖昧さが顕著になる。複数教師による異なる嗜好領域の事前学習モデルを微調整し、適応MDD(ACCDMD)は、スケジュールを介して段階的に音のCFG劣化誤差を校正する、Long Hybrid Tailは、長い水平自転期間に尾フレームのみにアライメントを強制する。
論文参考訳（メタデータ） (2026-02-14T08:32:38Z)
D$^2$-VR: Degradation-Robust and Distilled Video Restoration with Synergistic Optimization Strategy [7.553742541566094]
時間的アライメントと拡散前処理の統合はビデオ復元の変革的パラダイムとして現れました素晴らしい知覚の質を提供しています単一画像拡散に基づく低ステップ推論によるビデオ再生フレームワークである textbfD$2$-VR を提案する。
論文参考訳（メタデータ） (2026-02-09T08:52:51Z)
Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。 EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。 Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文参考訳（メタデータ） (2025-12-04T11:12:13Z)
Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文参考訳（メタデータ） (2025-12-04T11:11:24Z)
Towards Stable and Structured Time Series Generation with Perturbation-Aware Flow Matching [16.17115009663765]
安定かつ構造的に一貫した時系列生成を保証するために、摂動軌道をモデル化するフレームワークである textbfPAFM を導入する。このフレームワークは摂動誘導訓練を取り入れ、局所的な乱れをシミュレートし、二経路速度場を利用して摂動下での軌道偏差を捉える。非条件および条件生成タスクの両方の実験において、PAFMは強いベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-11-18T13:30:56Z)
RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文参考訳（メタデータ） (2025-10-16T17:59:13Z)
Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文参考訳（メタデータ） (2025-09-29T17:57:14Z)
QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [67.15451442018258]
拡散変換器は素晴らしいビデオ生成能力を示すが、その計算とメモリの禁止コストは実際の展開を妨げる。モデル量子化とアテンションスパシフィケーションは圧縮に有望な2つの方向であるが、それぞれがアグレッシブ圧縮の下で深刻な性能劣化を被っている。モデル量子化と注意散布を統合した統合フレームワークである textbfQuantSparse を提案する。
論文参考訳（メタデータ） (2025-09-28T06:49:44Z)
StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。 Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文参考訳（メタデータ） (2025-09-26T05:23:31Z)
SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文参考訳（メタデータ） (2025-09-19T02:41:37Z)
Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文参考訳（メタデータ） (2025-08-25T02:58:39Z)
Compact Attention: Exploiting Structured Spatio-Temporal Sparsity for Fast Video Generation [21.87891961960399]
Compact Attentionは,3つのイノベーションを特徴とする,ハードウェア対応のアクセラレーションフレームワークだ。単体GPUのセットアップに注意を向け,1.62.5倍の高速化を実現した。この研究は、構造化された空間的利用を通じて効率的な長ビデオ生成を解放するための原則化されたアプローチを提供する。
論文参考訳（メタデータ） (2025-08-18T14:45:42Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [26.365397387678396]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。 ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文参考訳（メタデータ） (2025-05-20T06:58:40Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
Intrinsic Temporal Regularization for High-resolution Human Video Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文参考訳（メタデータ） (2020-12-11T05:29:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。