論文の概要: AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion
- arxiv url: http://arxiv.org/abs/2503.07418v1
- Date: Mon, 10 Mar 2025 15:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:36.225729
- Title: AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion
- Title(参考訳): AR拡散: 自己回帰拡散を用いた非同期ビデオ生成
- Authors: Mingzhen Sun, Weining Wang, Gen Li, Jiawei Liu, Jiahui Sun, Wanquan Feng, Shanshan Lao, SiYu Zhou, Qian He, Jing Liu,
- Abstract要約: 自動回帰拡散(AR-Diffusion, Auto-Regressive Diffusion)は, フレキシブルビデオ生成のための自己回帰拡散モデルと拡散モデルの強みを組み合わせた新しいモデルである。
自己回帰生成に触発されて、個々のフレームの腐敗タイムステップに非減少制約を組み込む。
このセットアップは、時間的因果的注意とともに、時間的コヒーレンスを保ちながら、長さの異なる柔軟なビデオの生成を可能にする。
- 参考スコア(独自算出の注目度): 19.98565541640125
- License:
- Abstract: The task of video generation requires synthesizing visually realistic and temporally coherent video frames. Existing methods primarily use asynchronous auto-regressive models or synchronous diffusion models to address this challenge. However, asynchronous auto-regressive models often suffer from inconsistencies between training and inference, leading to issues such as error accumulation, while synchronous diffusion models are limited by their reliance on rigid sequence length. To address these issues, we introduce Auto-Regressive Diffusion (AR-Diffusion), a novel model that combines the strengths of auto-regressive and diffusion models for flexible, asynchronous video generation. Specifically, our approach leverages diffusion to gradually corrupt video frames in both training and inference, reducing the discrepancy between these phases. Inspired by auto-regressive generation, we incorporate a non-decreasing constraint on the corruption timesteps of individual frames, ensuring that earlier frames remain clearer than subsequent ones. This setup, together with temporal causal attention, enables flexible generation of videos with varying lengths while preserving temporal coherence. In addition, we design two specialized timestep schedulers: the FoPP scheduler for balanced timestep sampling during training, and the AD scheduler for flexible timestep differences during inference, supporting both synchronous and asynchronous generation. Extensive experiments demonstrate the superiority of our proposed method, which achieves competitive and state-of-the-art results across four challenging benchmarks.
- Abstract(参考訳): ビデオ生成の課題は、視覚的にリアルで時間的に一貫性のあるビデオフレームを合成することである。
既存のメソッドは、この課題に対処するために、主に非同期自動回帰モデルまたは同期拡散モデルを使用する。
しかし、非同期自己回帰モデルはトレーニングと推論の不整合に悩まされ、エラーの蓄積などの問題が発生し、同期拡散モデルは厳密なシーケンス長に依存するため制限される。
これらの問題に対処するために,自動回帰拡散(AR-Diffusion, Auto-Regressive Diffusion)という,フレキシブルで非同期なビデオ生成のための自己回帰拡散モデルの強みを組み合わせた新しいモデルを導入する。
具体的には、トレーニングと推論の両方において、拡散を利用して徐々にビデオフレームを劣化させ、これらの相の相違を低減させる。
自己回帰生成に触発されて、個々のフレームの汚職タイムステップに非減少制約が組み込まれ、初期フレームがその後のフレームよりも明確であることを保証する。
このセットアップは、時間的因果的注意とともに、時間的コヒーレンスを保ちながら、長さの異なる柔軟なビデオの生成を可能にする。
さらに、トレーニング中の時間ステップサンプリングのためのFoPPスケジューラと、推論時のフレキシブルな時間ステップ差のためのADスケジューラの2つの特別な時間ステップスケジューラを設計し、同期および非同期両方の生成をサポートする。
提案手法は,4つの試行錯誤ベンチマークに比較して,競争的かつ最先端な結果が得られた。
関連論文リスト
- LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync [13.480681141520638]
LatentSyncは、音声条件付き遅延拡散モデルに基づくエンドツーエンドのリップシンクフレームワークである。
我々のフレームワークは、複雑な音声と視覚の相関をモデル化するために、安定拡散の強力な能力を利用することができる。
SyncNet の精度は HDTF テストセットで 91% から 94% に向上した。
論文 参考訳(メタデータ) (2024-12-12T13:20:52Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。
本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency [9.07931905323022]
拡散モデルに基づく新しいテキスト・ツー・ビデオ(T2V)生成ネットワーク構造を提案する。
提案手法では,1本の動画を入力として必要とせず,事前学習した安定拡散ネットワーク上に構築する。
我々は、変換器と畳み込みのハイブリッドアーキテクチャを活用して、時間的複雑さを補償し、ビデオ内の異なるフレーム間の一貫性を向上させる。
論文 参考訳(メタデータ) (2023-08-24T07:11:00Z) - Instructed Diffuser with Temporal Condition Guidance for Offline
Reinforcement Learning [71.24316734338501]
テンポラリ・コンポラブル・ディフューザ(TCD)を用いた実効時間条件拡散モデルを提案する。
TCDは、相互作用シーケンスから時間情報を抽出し、時間条件で生成を明示的にガイドする。
提案手法は,従来のSOTAベースラインと比較して最高の性能を達成または一致させる。
論文 参考訳(メタデータ) (2023-06-08T02:12:26Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。