論文の概要: AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2606.03972v2
- Date: Wed, 03 Jun 2026 17:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.649287
- Title: AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation
- Title(参考訳): AAD-1: ワンステップ自己回帰ビデオ生成のための非対称対向蒸留
- Authors: Haobo Li, Yanhong Zeng, Yunhong Lu, Jiapeng Zhu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Yujun Shen, Zhipeng Zhang,
- Abstract要約: AAD-1は、一段階の自己回帰画像-ビデオ生成のための非対称な対数蒸留フレームワークである。
AAD-1は1ステップの自己回帰ビデオ生成において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 66.55343616132005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AAD-1, an Asymmetric Adversarial Distillation framework for One-step autoregressive image-to-video generation. State-of-the-art methods adopt adversarial distillation but suffer from motion collapse and training instability, resulting in static videos. AAD-1 addresses these challenges through two key designs in architecture and training strategy. Our key architectural insight is to break the symmetry between generator and discriminator. While the generator remains causal to preserve autoregressive sampling capability, the discriminator attends bidirectionally over the full spatiotemporal context and produces a single holistic realism score for the entire video sequence. This asymmetric design enables the discriminator to effectively detect global temporal failures and long-range drift that cause motion collapse in autoregressive generation. To stabilize training, we introduce a phased strategy that first uses distribution matching to bootstrap a stable one-step generator, providing a warm-up phase that brings the student distribution closer to the teacher before adversarial distillation begins. Extensive experiments on VBench demonstrate that AAD-1 achieves state-of-the-art performance in one-step autoregressive video generation.
- Abstract(参考訳): AAD-1は1段階の自己回帰画像合成のための非対称適応蒸留フレームワークである。
最先端の手法では、対向蒸留を採用するが、運動の崩壊とトレーニングの不安定さに悩まされ、スタティックビデオに繋がる。
AAD-1はアーキテクチャとトレーニング戦略の2つの重要な設計を通じてこれらの課題に対処する。
私たちのアーキテクチャ上の重要な洞察は、ジェネレータと判別器の対称性を破ることです。
ジェネレータは自己回帰サンプリング能力を維持するために因果関係にあるが、判別器は全時空間上で双方向に参加し、ビデオシーケンス全体に対して1つの全体的リアリズムスコアを生成する。
この非対称設計により、判別器は、自己回帰生成において動きの崩壊を引き起こす大域的時間的故障と長距離ドリフトを効果的に検出することができる。
学習を安定させるためには,まず配当マッチングを用いて安定な一段階発生器をブートストラップし,逆蒸留開始前に生徒の配当を教師に近づけるウォームアップフェーズを提供する。
VBenchでの大規模な実験により、AAD-1は1ステップの自己回帰ビデオ生成において最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Drift-AR: Single-Step Visual Autoregressive Generation via Anti-Symmetric Drifting [25.589468409950484]
自己回帰(AR)-拡散ハイブリッドパラダイムは、ARの構造的セマンティックモデリングと拡散の高忠実性合成を組み合わせるが、二重速度ボトルネックに悩まされる。
エントロピー信号を利用して両段階を高速化する textbfDrift-AR を提案する。
MAR、TransDiff、NextStep-1の実験では、3.8-5.5$times$ speedup with original 1-NFE decoding, matching or overing original quality。
論文 参考訳(メタデータ) (2026-03-30T05:29:00Z) - Adaptive Video Distillation: Mitigating Oversaturation and Temporal Collapse in Few-Step Generation [43.89162138967428]
本稿では,ビデオ拡散モデルに適した新しい蒸留フレームワークを提案する。
その中核となる革新は,(1)空間監督重量を動的に調整し,過度な分布シフトに起因するアーティファクトを防止する適応回帰損失,(2)スムーズで物理的に妥当なサンプリング軌道を促進する時間正規化損失,(3)知覚的品質を維持しながらサンプリングオーバーヘッドを低減する推論時間枠戦略である。
VBench と VBench2 ベンチマークの実験およびアブレーション実験により,本手法は安定した数段階のビデオ合成を実現し,知覚的忠実度と運動リアリズムを著しく向上させることを示した。
論文 参考訳(メタデータ) (2026-03-23T11:54:33Z) - OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [51.031726911410594]
最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-03-12T08:17:36Z) - Towards One-step Causal Video Generation via Adversarial Self-Distillation [71.30373662465648]
最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせている。
我々のフレームワークは、複数の推論ステップ設定を柔軟にサポートする単一の蒸留モデルを生成する。
論文 参考訳(メタデータ) (2025-11-03T10:12:47Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。
本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。
人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文 参考訳(メタデータ) (2024-04-21T15:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。