論文の概要: Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation
- arxiv url: http://arxiv.org/abs/2512.21734v1
- Date: Thu, 25 Dec 2025 16:34:56 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:30.781135
- Title: Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation
- Title(参考訳): Knot Forcing:リアルタイムインタラクティブポートレートアニメーションのための自己回帰型ビデオ拡散モデルの作成
- Authors: Steven Xiao, XIndi Zhang, Dechao Meng, Qi Wang, Peng Zhang, Bang Zhang,
- Abstract要約: リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。
Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
- 参考スコア(独自算出の注目度): 16.692450893925148
- License:
- Abstract: Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.
- Abstract(参考訳): リアルタイムのポートレートアニメーションは、仮想アシスタントやライブアバターのようなインタラクティブなアプリケーションには不可欠であり、高い視覚的忠実度、時間的コヒーレンス、超低レイテンシ、参照画像や駆動信号などの動的入力からの応答制御を必要とする。
拡散ベースのモデルは強い品質を達成するが、その非因果性はストリーミングの展開を妨げる。
因果自己回帰ビデオ生成アプローチは、フレーム単位の効率的な生成を可能にするが、エラーの蓄積、チャンク境界における動きの不連続、長期的一貫性の低下に悩まされる。
本研究では,(1)参照画像のキャッシュされたKV状態によるグローバルID保存によるチャンクワイズ生成戦略と,スライドウィンドウアテンションを用いた局所時間モデリング,(2)隣接チャンクを重畳してスムーズな映像間移動の条件付けによる時空間キューを伝搬するテンポラルノットモジュール,(3)推論中に参照フレームの時間座標を動的に更新し,その意味的コンテキストを現在のロールアウトフレームよりも先延ばしに維持する,3つの重要な設計を通じて,これらの課題に対処する新たなストリーミングフレームワークKnot Forcingを提案する。
Knot Forcingは、無限のシーケンス上で高忠実で、時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にし、コンシューマグレードのGPU上で強力な視覚的安定性を備えたリアルタイムパフォーマンスを実現する。
関連論文リスト
- Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model [18.910745982208965]
TalkingPoseは、時間的に一貫した人間の上半身アニメーションを作成するための新しい拡散ベースのフレームワークである。
画像ベース拡散モデルに基づくフィードバック駆動機構を導入し,連続的な動きを確実にし,時間的コヒーレンスを高める。
また、人間の上半身アニメーションの新しいベンチマークとして、包括的で大規模なデータセットも導入した。
論文 参考訳(メタデータ) (2025-11-30T14:26:24Z) - MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T06:37:53Z) - Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation [75.71558917038838]
Lookahead Anchoringは、時間的自己回帰生成におけるアイデンティティドリフトを防ぐ。
固定境界から方向ビーコンに変形する。
セルフキーフレーミングも可能で、参照イメージがルックアヘッドターゲットとして機能する。
論文 参考訳(メタデータ) (2025-10-27T17:50:19Z) - LILAC: Long-sequence Incremental Low-latency Arbitrary Motion Stylization via Streaming VAE-Diffusion with Causal Decoding [5.946860384629338]
LILACは、任意のモーションスタイリングのための最近の高性能オフラインフレームワークの上に構築されている。
それは、スライディングウインドウの因果設計で、潜在空間のストリーミングアーキテクチャを通じて、オンライン環境に拡張する。
このアーキテクチャは、将来のフレームに依存したり、拡散モデルアーキテクチャを変更することなく、リアルタイムな任意のスタイル化を可能にする。
論文 参考訳(メタデータ) (2025-10-17T07:45:43Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。