論文の概要: LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.05806v1
- Date: Fri, 06 Jun 2025 07:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.356406
- Title: LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models
- Title(参考訳): LLIA-低レイテンシ対話型アバター--拡散モデルを用いたリアルタイムオーディオ駆動画像生成
- Authors: Haojie Yu, Zhaonian Wang, Yihan Pan, Meng Cheng, Hao Yang, Chao Wang, Tao Xie, Xiaoming Xu, Xiaoming Wei, Xunliang Cai,
- Abstract要約: 拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。
本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。
本モデルでは,解像度384x384,解像度512x512で最大78FPS,ビデオ生成遅延140msと215msで最大78FPSを実現している。
- 参考スコア(独自算出の注目度): 17.858801012726445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based models have gained wide adoption in the virtual human generation due to their outstanding expressiveness. However, their substantial computational requirements have constrained their deployment in real-time interactive avatar applications, where stringent speed, latency, and duration requirements are paramount. We present a novel audio-driven portrait video generation framework based on the diffusion model to address these challenges. Firstly, we propose robust variable-length video generation to reduce the minimum time required to generate the initial video clip or state transitions, which significantly enhances the user experience. Secondly, we propose a consistency model training strategy for Audio-Image-to-Video to ensure real-time performance, enabling a fast few-step generation. Model quantization and pipeline parallelism are further employed to accelerate the inference speed. To mitigate the stability loss incurred by the diffusion process and model quantization, we introduce a new inference strategy tailored for long-duration video generation. These methods ensure real-time performance and low latency while maintaining high-fidelity output. Thirdly, we incorporate class labels as a conditional input to seamlessly switch between speaking, listening, and idle states. Lastly, we design a novel mechanism for fine-grained facial expression control to exploit our model's inherent capacity. Extensive experiments demonstrate that our approach achieves low-latency, fluid, and authentic two-way communication. On an NVIDIA RTX 4090D, our model achieves a maximum of 78 FPS at a resolution of 384x384 and 45 FPS at a resolution of 512x512, with an initial video generation latency of 140 ms and 215 ms, respectively.
- Abstract(参考訳): 拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。
しかし、彼らの相当な計算要件は、リアルタイムのインタラクティブなアバターアプリケーションへのデプロイを制限しており、そこでは、厳格な速度、レイテンシ、および持続時間要件が最重要である。
本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。
まず,ビデオクリップの生成や状態遷移に要する最小時間を削減するために,ロバストな可変長ビデオ生成を提案し,ユーザエクスペリエンスを著しく向上させる。
第2に,高速な数ステップ生成を実現するために,オーディオ画像から映像までの一貫性モデルのトレーニング戦略を提案する。
モデル量子化とパイプライン並列化は推論速度を加速するためにさらに用いられる。
拡散過程とモデル量子化により生じる安定性損失を軽減するため、長周期ビデオ生成に適した新しい推論戦略を導入する。
これらの方法は、高忠実度出力を維持しながら、リアルタイム性能と低レイテンシを保証する。
第3に,クラスラベルを条件入力として組み込んで,会話,聴取,アイドル状態のシームレスな切り替えを行う。
最後に,モデル固有のキャパシティを生かした,きめ細かい表情制御のための新しい機構を設計する。
広汎な実験により,本手法は低レイテンシ,流体,真正な双方向通信を実現することが示された。
NVIDIA RTX 4090Dでは,解像度384x384で78FPS,解像度512x512で45FPS,ビデオ生成遅延140msと215msを実現している。
関連論文リスト
- LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。
Video-VAEとDenoising Transformerをシームレスに統合する。
Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文 参考訳(メタデータ) (2024-12-30T19:00:25Z) - Real-time One-Step Diffusion-based Expressive Portrait Videos Generation [85.07446744308247]
我々は,OSA-LCM (One-Step Avatar Latent Consistency Model)を導入し,リアルタイム拡散に基づくアバターを実現する。
提案手法は,既存の手法に匹敵する映像品質を実現するが,サンプリングステップは1回しか必要とせず,処理速度は10倍以上に向上する。
論文 参考訳(メタデータ) (2024-12-18T03:42:42Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive
Generation [29.30999290150683]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。