Fugu-MT 論文翻訳(概要): Anchor Forcing: Anchor Memory and Tri-Region RoPE for Interactive Streaming Video Diffusion

論文の概要: Anchor Forcing: Anchor Memory and Tri-Region RoPE for Interactive Streaming Video Diffusion

arxiv url: http://arxiv.org/abs/2603.13405v1
Date: Thu, 12 Mar 2026 07:40:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.173069
Title: Anchor Forcing: Anchor Memory and Tri-Region RoPE for Interactive Streaming Video Diffusion
Title（参考訳）: アンカー強制:対話型ストリーミングビデオ拡散のためのアンカーメモリとトリレギュレーション RoPE
Authors: Yang Yang, Tianyi Zhang, Wei Huang, Jinwei Chen, Boxi Wu, Xiaofei He, Deng Cai, Bo Li, Peng-Tao Jiang,
Abstract要約: 2つの設計を持つキャッシュ中心のフレームワークである textbfAnchor Forcing を提案する。まず、アンカー誘導再キャッシュ機構は、KV状態をアンカーキャッシュに格納し、各プロンプトスイッチでアンカーからウォームスタートを再キャッシュする。第2に、領域固有の参照元を持つ三領域RoPEは、未拘束のストリーミング指標と事前訓練されたRoPEレギュレーションとを整合させて、動きの先行をよりよく維持する。
参考スコア（独自算出の注目度）: 40.885162663758585
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Interactive long video generation requires prompt switching to introduce new subjects or events, while maintaining perceptual fidelity and coherent motion over extended horizons. Recent distilled streaming video diffusion models reuse a rolling KV cache for long-range generation, enabling prompt-switch interaction through re-cache at each switch. However, existing streaming methods still exhibit progressive quality degradation and weakened motion dynamics. We identify two failure modes specific to interactive streaming generation: (i) at each prompt switch, current cache maintenance cannot simultaneously retain KV-based semantic context and recent latent cues, resulting in weak boundary conditioning and reduced perceptual quality; and (ii) during distillation, unbounded time indexing induces a positional distribution shift from the pretrained backbone's bounded RoPE regime, weakening pretrained motion priors and long-horizon motion retention. To address these issues, we propose \textbf{Anchor Forcing}, a cache-centric framework with two designs. First, an anchor-guided re-cache mechanism stores KV states in anchor caches and warm-starts re-cache from these anchors at each prompt switch, reducing post-switch evidence loss and stabilizing perceptual quality. Second, a tri-region RoPE with region-specific reference origins, together with RoPE re-alignment distillation, reconciles unbounded streaming indices with the pretrained RoPE regime to better retain motion priors. Experiments on long videos show that our method improves perceptual quality and motion metrics over prior streaming baselines in interactive settings. Project page: https://github.com/vivoCameraResearch/Anchor-Forcing
Abstract（参考訳）: インタラクティブなロングビデオ生成には、新しい主題やイベントの導入を即時に切り替える必要があるが、知覚的忠実さと広範囲な地平線上でのコヒーレントな動きは維持される。最近の蒸留ストリーミングビデオ拡散モデルでは、ローリングKVキャッシュを長距離生成に再利用し、スイッチ毎に再キャッシュすることで、即時スウィッチ相互作用を可能にする。しかし、既存のストリーミング手法は依然として進行的な品質劣化と運動力学の弱さを示している。対話型ストリーミング生成に特有な2つの障害モードを同定する。 i) 各プロンプトスイッチにおいて、現在のキャッシュメンテナンスは、KVベースのセマンティックコンテキストと最近の潜時キューを同時に保持することができず、境界条件が弱く、知覚品質が低下する。 (II) 蒸留において, 非有界時間インデクシングは, 予め訓練したバックボーンの束縛された RoPE 状態から位置分布シフトを誘導し, 事前訓練された動きの先行と長軸運動の保持を弱める。これらの問題に対処するため、2つの設計を持つキャッシュ中心のフレームワークである \textbf{Anchor Forcing} を提案する。まず、アンカー誘導再キャッシュ機構は、アンカーキャッシュにKV状態を格納し、各プロンプトスイッチでこれらのアンカーからウォームスタート再キャッシュし、スウィッチ後のエビデンス損失を低減し、知覚品質を安定化させる。第2に、領域固有の基準源を持つ三領域のRoPEと、RoPEの再配位蒸留は、未有界のストリーミング指標を事前訓練されたRoPE体制と整合させて、動きの先行をよりよく維持する。長ビデオ実験により,対話的環境下での先行ストリーミングベースラインよりも知覚的品質と動きの指標が向上することが示された。プロジェクトページ: https://github.com/vivoCameraResearch/Anchor-Forcing

関連論文リスト

AvatarForcing: One-Step Streaming Talking Avatars via Local-Future Sliding-Window Denoising [15.787466786514164]
AvatarForcingは、一段階のストリーミング拡散フレームワークで、不均一なノイズレベルを持つ固定されたローカルフューチャーウィンドウを識別する。標準ベンチマークと400ビデオのロングフォームベンチマークの実験では、強い視覚的品質と34ms/frameでの唇の同期が示されている。
論文参考訳（メタデータ） (2026-03-15T11:42:07Z)
MemRoPE: Training-Free Infinite Video Generation via Evolving Memory Tokens [34.228121359393775]
2つの共同設計コンポーネントを備えたトレーニングフリーフレームワークであるMemRoPEを紹介した。オンラインRoPEインデックスは、回転しないキーをキャッシュし、注意時に位置埋め込みを動的に適用する。 MemRoPEは、時間的コヒーレンス、視覚的忠実度、主観的一貫性において、毎分から1時間単位で既存の手法より優れている。
論文参考訳（メタデータ） (2026-03-12T23:14:16Z)
LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文参考訳（メタデータ） (2026-01-23T17:21:35Z)
Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression [36.99018442740971]
映像拡散にStreamingLLMスタイルのアテンションシンクを鼻で適用すると、忠実度が低下し、動きが停滞することがわかった。我々は、微調整なしでこれに対応する2つのトレーニング不要なメカニズムからなるDeep Forcingを紹介した。以上の結果から,トレーニングフリーなKV-cache管理は,自動回帰ストリーミング長ビデオ生成のためのトレーニングベースアプローチと一致するか,あるいは超える可能性があることが示唆された。
論文参考訳（メタデータ） (2025-12-04T18:46:44Z)
Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。 EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。 Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文参考訳（メタデータ） (2025-12-04T11:12:13Z)
Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout [15.899488263212442]
$infty$-RoPEは自動回帰ビデオ拡散のための統合された推論時フレームワークである。ブロック相対論的RoPEは、時間的エンコーディングを移動局所参照フレームとして再構成する。 KV Flushは、グローバルシンクと最後に生成された潜在フレームの2つだけを保持することで、KVキャッシュを更新する。 RoPEカットは、時間的RoPE座標における制御された不連続を導入する。
論文参考訳（メタデータ） (2025-11-25T18:59:46Z)
Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文参考訳（メタデータ） (2025-08-25T02:58:39Z)
DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文参考訳（メタデータ） (2025-08-11T09:54:45Z)
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文参考訳（メタデータ） (2024-07-11T17:34:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。