論文の概要: Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.12099v1
- Date: Sat, 15 Nov 2025 08:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.606226
- Title: Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models
- Title(参考訳): 自己回帰的ビデオ拡散モデルのための適応的ベジン・オブ・ビデオトークン
- Authors: Tianle Cheng, Zeyan Zhang, Kaifeng Gao, Jun Xiao,
- Abstract要約: ほとんどのビデオ拡散モデル(VDM)は自己回帰的な方法でビデオを生成し、それに続く繰り返しフレームを生成する。
本稿では,自動回帰VDMのためのAdaptive Begin-of-Video Tokens(ada-BOV)を提案する。
- 参考スコア(独自算出の注目度): 11.913945404405865
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in diffusion-based video generation have produced impressive and high-fidelity short videos. To extend these successes to generate coherent long videos, most video diffusion models (VDMs) generate videos in an autoregressive manner, i.e., generating subsequent frames conditioned on previous ones. There are generally two primary paradigms: chunk-based extension and stream denoising. The former directly concatenates previous clean frames as conditioning, suffering from denoising latency and error accumulation. The latter maintains the denoising sequence with monotonically increasing noise levels. In each denoising iteration, one clean frame is produced while a new pure noise is simultaneously appended, enabling live-stream sampling. However, it struggles with fragile consistency and poor motion dynamics. In this paper, we propose Adaptive Begin-of-Video Tokens (ada-BOV) for autoregressive VDMs. The BOV tokens are special learnable embeddings on VDMs. They adaptively absorb denoised preceding frames via an adaptive-layer-norm-like modulation. This design preserves the global consistency while allowing for flexible conditioning in dynamic scenarios. To ensure the quality of local dynamics essential in modulating BOV tokens, we further propose a refinement strategy for stream denoising. It decouples the sampling trajectory length from the attention window size constraint, leading to improved local guidance and overall imaging quality. We also propose a disturbance-augmented training noise schedule, which balances the convergence speed with model robustness for the stream denoising. Extensive experiments demonstrate that our method achieves compelling qualitative and quantitative results across multiple metrics.
- Abstract(参考訳): 拡散に基づくビデオ生成の最近の進歩は、印象的かつ高忠実なショートビデオを生み出している。
これらの成功をコヒーレントな長ビデオを生成するために、ほとんどのビデオ拡散モデル(VDM)は自己回帰的な方法でビデオを生成する。
一般的に、チャンクベースの拡張とストリームのデノゲーションの2つの主要なパラダイムがあります。
前者は、以前のクリーンフレームを条件付けとして直接結合し、遅延とエラーの蓄積を損なう。
後者はノイズレベルを単調に増加させるデノナイジングシーケンスを維持している。
各復調イテレーションでは、1つのクリーンフレームが生成され、同時に新しい純粋なノイズが付加され、ライブストリームサンプリングが可能となる。
しかし、脆弱な一貫性と運動力学に苦しむ。
本稿では,自動回帰VDMのためのAdaptive Begin-of-Video Tokens(ada-BOV)を提案する。
BOVトークンは、VDMに特別な学習可能な埋め込みである。
適応層ノルム様変調により、偏光前フレームを適応的に吸収する。
この設計は、動的なシナリオでフレキシブルな条件付けを可能にしながら、グローバルな一貫性を保っている。
BOVトークンの調整に不可欠な局所力学の品質を確保するため,ストリームデノナイズのための改良戦略を提案する。
これは、サンプリング軌跡の長さを注意窓の大きさの制約から切り離し、局所誘導を改善し、全体的な画像品質を向上させる。
また,コンバージェンス速度とモデルのロバスト性とのバランスを相殺する外乱増強型トレーニングノイズスケジュールを提案する。
大規模な実験により,本手法は複数の指標をまたいだ有意な質的,定量的な結果が得られることが示された。
関連論文リスト
- BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos [41.45750971432533]
ビデオ拡散モデル(VDM)は高品質のビデオの生成を容易にする。
近年,映像の質を高める「金音」の存在が報告されている。
本研究では,拡散サンプリングプロセスにおける黄金の初期雑音を識別する,プラグアンドプレイの推論時間探索手法であるScalingNoiseを提案する。
論文 参考訳(メタデータ) (2025-03-20T17:54:37Z) - Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation [36.098738197088124]
本研究では,遅延ビデオ生成を高速化する拡散再利用モードネットワークを提案する。
初期のデノナイジングステップの粗いきめのノイズは、連続するビデオフレーム間で高い動きの一貫性を示す。
Mo博士は、慎重に設計された軽量なフレーム間の動きを取り入れることで、これらの粗いノイズを次のフレームに伝播させる。
論文 参考訳(メタデータ) (2024-09-19T07:50:34Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。