論文の概要: AvatarForcing: One-Step Streaming Talking Avatars via Local-Future Sliding-Window Denoising
- arxiv url: http://arxiv.org/abs/2603.14331v1
- Date: Sun, 15 Mar 2026 11:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.751938
- Title: AvatarForcing: One-Step Streaming Talking Avatars via Local-Future Sliding-Window Denoising
- Title(参考訳): AvatarForcing: ローカル・フューチャースライディング・ウィンドウデノイングによるワンステップストリーミングアバター
- Authors: Liyuan Cui, Wentao Hu, Wenyuan Zhang, Zesong Yang, Fan Shi, Xiaoqiang Liu,
- Abstract要約: AvatarForcingは、一段階のストリーミング拡散フレームワークで、不均一なノイズレベルを持つ固定されたローカルフューチャーウィンドウを識別する。
標準ベンチマークと400ビデオのロングフォームベンチマークの実験では、強い視覚的品質と34ms/frameでの唇の同期が示されている。
- 参考スコア(独自算出の注目度): 15.787466786514164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time talking avatar generation requires low latency and minute-level temporal stability. Autoregressive (AR) forcing enables streaming inference but suffers from exposure bias, which causes errors to accumulate and become irreversible over long rollouts. In contrast, full-sequence diffusion transformers mitigate drift but remain computationally prohibitive for real-time long-form synthesis. We present AvatarForcing, a one-step streaming diffusion framework that denoises a fixed local-future window with heterogeneous noise levels and emits one clean block per step under constant per-step cost. To stabilize unbounded streams, the method introduces dual-anchor temporal forcing: a style anchor that re-indexes RoPE to maintain a fixed relative position with respect to the active window and applies anchor-audio zero-padding, and a temporal anchor that reuses recently emitted clean blocks to ensure smooth transitions. Real-time one-step inference is enabled by two-stage streaming distillation with offline ODE backfill and distribution matching. Experiments on standard benchmarks and a new 400-video long-form benchmark show strong visual quality and lip synchronization at 34 ms/frame using a 1.3B-parameter student model for realtime streaming. Our page is available at: https://cuiliyuan121.github.io/AvatarForcing/
- Abstract(参考訳): リアルタイム音声アバター生成は低レイテンシと極小レベルの時間安定性を必要とする。
自動回帰(AR)強制は、ストリーミング推論を可能にするが、露出バイアスに悩まされ、長いロールアウトでエラーが蓄積され、不可逆になる。
対照的に、フルシーケンス拡散変換器はドリフトを緩和するが、リアルタイムの長期合成には計算的に禁じられている。
AvatarForcingは、一段階のストリーミング拡散フレームワークで、固定されたローカルフューチャーウィンドウに異種ノイズレベルを付与し、ステップごとのクリーンブロックを一定コストで出力する。
非有界ストリームを安定化させるために、この手法では、アクティブウィンドウに対してRoPEを再インデックスして固定された相対位置を維持するスタイルアンカーと、最近発行されたクリーンブロックを再利用してスムーズな遷移を保証するテンポラルアンカーを導入する。
オフラインのODEバックフィルと分散マッチングを備えた2段階のストリーミング蒸留により、リアルタイムワンステップ推論が可能となる。
標準ベンチマークと400ビデオの新しいロングフォームベンチマークの実験は、リアルタイムストリーミングのために1.3Bパラメーターの学生モデルを用いて、34ms/frameで視覚的品質と唇の同期を示す。
https://cuiliyuan121.github.io/AvatarForcing/
関連論文リスト
- OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [51.031726911410594]
最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-03-12T08:17:36Z) - Anchor Forcing: Anchor Memory and Tri-Region RoPE for Interactive Streaming Video Diffusion [40.885162663758585]
2つの設計を持つキャッシュ中心のフレームワークである textbfAnchor Forcing を提案する。
まず、アンカー誘導再キャッシュ機構は、KV状態をアンカーキャッシュに格納し、各プロンプトスイッチでアンカーからウォームスタートを再キャッシュする。
第2に、領域固有の参照元を持つ三領域RoPEは、未拘束のストリーミング指標と事前訓練されたRoPEレギュレーションとを整合させて、動きの先行をよりよく維持する。
論文 参考訳(メタデータ) (2026-03-12T07:40:06Z) - JoyAvatar: Real-time and Infinite Audio-Driven Avatar Generation with Autoregressive Diffusion [19.420963062956222]
JoyAvatarは、リアルタイム推論と無限長のビデオ生成が可能なオーディオ駆動の自己回帰モデルである。
我々のモデルは、視覚的品質、時間的一貫性、唇同期の競合的な結果を達成する。
論文 参考訳(メタデータ) (2025-12-12T10:06:01Z) - Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。