論文の概要: SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory
- arxiv url: http://arxiv.org/abs/2603.11746v1
- Date: Thu, 12 Mar 2026 09:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.004455
- Title: SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory
- Title(参考訳): SoulX-LiveAct:隣の強制とConvKVメモリによる時間スケールリアルタイムアニメーションを目指して
- Authors: Dingcheng Zhen, Xu Zheng, Ruixin Zhang, Zhiqi Jiang, Yichao Yan, Ming Tao, Shunshun Yin,
- Abstract要約: 自己回帰(AR)拡散モデルは、ビデオ合成のような逐次生成タスクのための有望なフレームワークを提供する。
同じ雑音条件下で隣接フレームを時間的に伝播する拡散ステップ整合AR式であるNeighbor Forcingを提案する。
提案手法は,既存のAR拡散法と比較して,トレーニング収束,時間スケール生成品質,推論効率を著しく向上させる。
- 参考スコア(独自算出の注目度): 25.57144961436966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) diffusion models offer a promising framework for sequential generation tasks such as video synthesis by combining diffusion modeling with causal inference. Although they support streaming generation, existing AR diffusion methods struggle to scale efficiently. In this paper, we identify two key challenges in hour-scale real-time human animation. First, most forcing strategies propagate sample-level representations with mismatched diffusion states, causing inconsistent learning signals and unstable convergence. Second, historical representations grow unbounded and lack structure, preventing effective reuse of cached states and severely limiting inference efficiency. To address these challenges, we propose Neighbor Forcing, a diffusion-step-consistent AR formulation that propagates temporally adjacent frames as latent neighbors under the same noise condition. This design provides a distribution-aligned and stable learning signal while preserving drifting throughout the AR chain. Building upon this, we introduce a structured ConvKV memory mechanism that compresses the keys and values in causal attention into a fixed-length representation, enabling constant-memory inference and truly infinite video generation without relying on short-term motion-frame memory. Extensive experiments demonstrate that our approach significantly improves training convergence, hour-scale generation quality, and inference efficiency compared to existing AR diffusion methods. Numerically, LiveAct enables hour-scale real-time human animation and supports 20 FPS real-time streaming inference on as few as two NVIDIA H100 or H200 GPUs. Quantitative results demonstrate that our method attains state-of-the-art performance in lip-sync accuracy, human animation quality, and emotional expressiveness, with the lowest inference cost.
- Abstract(参考訳): 自己回帰(AR)拡散モデルは、拡散モデリングと因果推論を組み合わせることで、ビデオ合成のような逐次生成タスクのための有望なフレームワークを提供する。
ストリーミング生成をサポートするが、既存のAR拡散手法は効率よくスケールするのに苦労している。
本稿では,時間スケールリアルタイムアニメーションにおける2つの課題について述べる。
第一に、ほとんどの強制戦略は、ミスマッチした拡散状態でサンプルレベルの表現を伝播させ、一貫性のない学習信号と不安定な収束を引き起こす。
第二に、歴史的表現は無制限に成長し、構造が欠如し、キャッシュされた状態の効果的な再利用を防ぎ、推論効率を著しく制限する。
これらの課題に対処するため,同じ雑音条件下で隣接フレームを時間的に伝播する拡散ステップ整合AR式であるNeighbor Forcingを提案する。
この設計は、ARチェーン全体のドリフトを保ちながら、分布整列で安定した学習信号を提供する。
そこで我々は,ConvKVの構造化メモリ機構を導入し,因果的注意のキーと値を一定長の表現に圧縮し,短時間のモーションフレームメモリに頼ることなく,一定メモリの推論と真に無限の動画生成を可能にする。
大規模な実験により,既存のAR拡散法と比較して,トレーニング収束,時間スケール生成品質,推論効率が有意に向上することが示された。
数値的には、LiveActは時間スケールのリアルタイムアニメーションを可能にし、NVIDIA H100またはH200 GPUで20 FPSのリアルタイムストリーミング推論をサポートする。
定量的な結果から,本手法は低い推論コストで,リップ同期精度,人間のアニメーション品質,感情表現性を達成できることが示唆された。
関連論文リスト
- Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。
我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。
URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T17:59:57Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文 参考訳(メタデータ) (2025-03-13T15:54:45Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。