論文の概要: AdaState: Self-Evolving Anchors for Streaming Video Generation
- arxiv url: http://arxiv.org/abs/2605.30349v1
- Date: Thu, 28 May 2026 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.761982
- Title: AdaState: Self-Evolving Anchors for Streaming Video Generation
- Title(参考訳): AdaState: ビデオ生成をストリーミングするための自己進化型アンカー
- Authors: Yusuf Dalva, Pinar Yanardag,
- Abstract要約: 自己回帰ビデオ拡散モデルは、フレームを逐次生成し、以前に生成されたコンテンツに対して各チャンクを条件付けることによって、ストリーミングビデオを生成する。
静的なアンカーを適応的な状態に置き換えます。それは、モデルがすべてのチャンクでコンテンツと一緒に飾るが、決してレンダリングしない、隠れたラテントです。
実験により、適応状態は映像のダイナミックスを大幅に改善し、よりリッチな動きと自然のシーンの進行を可能にした。
- 参考スコア(独自算出の注目度): 19.753221929746417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models generate streaming video by producing frames sequentially, conditioning each chunk on previously generated content. These models are structurally anchored to the first frame: its key-value representation occupies a privileged position in the attention cache and serves as the primary scene reference throughout generation. As the cleanest and most error-free position in the cache, this anchor draws disproportionate attention, suppressing video dynamics, and locking scene composition to the initial viewpoint even as the scene naturally evolves. The result is a temporally shallow video in which motion, camera movement, and scene progression are dampened in favor of static consistency. To address this, we replace the static anchor with an adaptive state, a hidden latent that the model denoises alongside content at every chunk but never renders. Rather than referencing a frozen first frame, the model generates its own scene anchor at each step by attending to both the previous state and the current content, producing a reference that evolves with the generated content. Unlike standard video generation, which encodes an absolute notion of time, our formulation treats time as relative: every generation step sees the same positional structure regardless of how far generation has progressed, and the state transition is identical at every chunk. Together, these properties introduce a recurrence into the generation process, where denoising serves as the transition function, and the KV cache serves as the carrier, requiring no external module. Experiments demonstrate that the adaptive state substantially improves video dynamics, enabling richer motion and natural scene progression within generated videos.
- Abstract(参考訳): 自己回帰ビデオ拡散モデルは、フレームを逐次生成し、以前に生成されたコンテンツに対して各チャンクを条件付けることによって、ストリーミングビデオを生成する。
これらのモデルは第1フレームに構造的に固定されており、キー値表現はアテンションキャッシュ内の特権的な位置を占め、世代を通して主要なシーン参照として機能する。
このアンカーはキャッシュ内の最もクリーンでエラーのない位置として、不均等な注意を引き、映像のダイナミクスを抑え、シーンが自然に進化してもシーン構成を初期視点にロックする。
その結果、静的な一貫性を優先して、動き、カメラの動き、シーンの進行を減衰させる、時間的に浅い映像が得られた。
これを解決するために、静的アンカーを適応的な状態に置き換えます。
凍結した第1フレームを参照するのではなく、前の状態と現在のコンテンツの両方に参画することで、各ステップで独自のシーンアンカーを生成し、生成されたコンテンツとともに進化する参照を生成する。
時間の概念をエンコードする標準的なビデオ生成とは異なり、私たちの定式化は時間を相対的に扱います。
これらの特性は、生成プロセスに繰り返し導入され、デノナイズが遷移関数として機能し、KVキャッシュがキャリアとして機能し、外部モジュールを必要としない。
実験により、適応状態は映像のダイナミックスを大幅に改善し、よりリッチな動きと自然のシーンの進行を可能にした。
関連論文リスト
- SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing [76.349958946335]
本稿では,映像編集をセマンティックアンカーとモーションモデリングに分解するフレームワークであるSAMA(factorized Semantic Anchoring and Motion Alignment)を提案する。
まずセマンティックアンカリング(Semantic Anchoring)を導入し、スパースアンカフレームでのセマンティックトークンとビデオ潜在者を共同で予測することで、信頼性の高い視覚アンカを確立する。
第2に、モーションアライメントは同じバックボーンをモーション中心のビデオ復元のプリテキストタスクで事前トレーニングする。
論文 参考訳(メタデータ) (2026-03-19T17:59:51Z) - Flow caching for autoregressive video generation [72.10021661412364]
自動回帰ビデオ生成に特化して設計された,最初のキャッシュフレームワークであるFlowCacheを紹介する。
本手法は,MAGI-1では2.38倍,SkyReels-V2では6.7倍,品質劣化は無視できない。
論文 参考訳(メタデータ) (2026-02-11T13:11:04Z) - Inference-based GAN Video Generation [47.53991869205973]
可変エンコーダを用いた対向型非条件ビデオジェネレータの実現により,新しいタイプのビデオジェネレータを提案する。
既存のモデルは、生成されたビデオの時間的スケーリングに苦労する。
私たちは、数百から数千のフレームからなる長いビデオを生成するために、新しい、メモリ効率のアプローチを採用しています。
論文 参考訳(メタデータ) (2025-12-25T20:14:38Z) - VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning [38.89828994130979]
任意の場所に配置された任意のユーザ指定のパッチからビデオが生成され、ビデオキャンバスに描画されるような、任意の時間的ビデオ補完のタスクを紹介する。
この柔軟性は、単一のパラダイムの下で、ファーストフレームのイメージ・トゥ・ビデオ、塗り絵、拡張、結束など、既存のコントロール可能なビデオ生成タスクを統一する。
In-Context Conditioning(ICC)パラダイムを、新しいパラメータをゼロとしたこのきめ細かい制御タスクに適応する、新しいフレームワークであるVideoCanvasを開発した。
論文 参考訳(メタデータ) (2025-10-09T17:58:59Z) - Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。
We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文 参考訳(メタデータ) (2025-01-15T18:59:15Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。