論文の概要: Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
- arxiv url: http://arxiv.org/abs/2512.04677v2
- Date: Fri, 05 Dec 2025 06:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.735541
- Title: Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
- Title(参考訳): ライブアバター:無限長のリアルタイムオーディオ駆動アバター生成
- Authors: Yubo Huang, Hailong Guo, Fangtai Wu, Shifeng Zhang, Shijie Huang, Qijun Gan, Lin Liu, Sirui Zhao, Enhong Chen, Jiaming Liu, Steven Hoi,
- Abstract要約: 提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
- 参考スコア(独自算出の注目度): 57.458450695137664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing diffusion-based video generation methods are fundamentally constrained by sequential computation and long-horizon inconsistency, limiting their practical adoption in real-time, streaming audio-driven avatar synthesis. We present Live Avatar, an algorithm-system co-designed framework that enables efficient, high-fidelity, and infinite-length avatar generation using a 14-billion-parameter diffusion model. Our approach introduces Timestep-forcing Pipeline Parallelism (TPP), a distributed inference paradigm that pipelines denoising steps across multiple GPUs, effectively breaking the autoregressive bottleneck and ensuring stable, low-latency real-time streaming. To further enhance temporal consistency and mitigate identity drift and color artifacts, we propose the Rolling Sink Frame Mechanism (RSFM), which maintains sequence fidelity by dynamically recalibrating appearance using a cached reference image. Additionally, we leverage Self-Forcing Distribution Matching Distillation to facilitate causal, streamable adaptation of large-scale models without sacrificing visual quality. Live Avatar demonstrates state-of-the-art performance, reaching 20 FPS end-to-end generation on 5 H800 GPUs, and, to the best of our knowledge, is the first to achieve practical, real-time, high-fidelity avatar generation at this scale. Our work establishes a new paradigm for deploying advanced diffusion models in industrial long-form video synthesis applications.
- Abstract(参考訳): 既存の拡散型ビデオ生成法は、逐次計算と長時間水平不整合により基本的に制限されており、リアルタイムのストリーミングオーディオ駆動アバター合成においてその実践的採用を制限している。
提案するLive Avatarは,14ビリオンパラメトリック拡散モデルを用いて,効率的で高忠実で無限長のアバター生成を可能にするアルゴリズム・システムの共同設計フレームワークである。
このアプローチでは、複数のGPUにまたがるステップをパイプライン化し、自動回帰ボトルネックを効果的に破壊し、安定した低レイテンシリアルタイムストリーミングを保証する分散推論パラダイムである、タイムステップ強制パイプライン並列(TPP)を導入しています。
さらに時間的一貫性を高め、アイデンティティのドリフトとカラーアーティファクトを緩和するために、キャッシュされた参照画像を用いて外観を動的に再調整することでシーケンスの忠実性を維持するRolling Sink Frame Mechanism (RSFM)を提案する。
さらに, 視覚的品質を犠牲にすることなく, 大規模モデルの因果的, 流動的適応を容易にするために, 自己強制分布マッチング蒸留を利用する。
Live Avatarは5H800 GPU上で20FPSのエンドツーエンド生成を実現し、私たちの知る限り、この規模で実用的でリアルタイムで高忠実なアバター生成を実現するのはこれが初めてである。
本研究は,産業用長編ビデオ合成アプリケーションに高度な拡散モデルを展開するための新しいパラダイムを確立する。
関連論文リスト
- StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。
我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。
URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T17:59:57Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models [17.858801012726445]
拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。
本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。
本モデルでは,解像度384x384,解像度512x512で最大78FPS,ビデオ生成遅延140msと215msで最大78FPSを実現している。
論文 参考訳(メタデータ) (2025-06-06T07:09:07Z) - Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文 参考訳(メタデータ) (2025-03-13T15:54:45Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [39.94595889521696]
LetsTalkは、マルチモーダルガイダンスと新しいメモリバンク機構を備えた拡散トランスフォーマーフレームワークである。
特に、LetsTalkは、拡張ビデオ生成時のエラーの蓄積とアーティファクトのサンプリングを緩和するために、ノイズレギュラー化されたメモリバンクを導入している。
我々はLetsTalkが生成品質の新たな最先端を確立し、時間的に一貫したリアルな会話ビデオを生成することを示す。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。