論文の概要: POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.21019v1
- Date: Thu, 28 Aug 2025 17:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.532165
- Title: POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models
- Title(参考訳): POSE:ビデオ拡散モデルのための位相1ステップ逆数平衡
- Authors: Jiaxiang Cheng, Bing Ma, Xuhua Ren, Hongyi Jin, Kai Yu, Peng Zhang, Wenyue Li, Yuan Zhou, Tianxiang Zheng, Qinglin Lu,
- Abstract要約: POSE(Phased One-Step Equilibrium)は、大規模ビデオ拡散モデルのサンプリングステップを削減する蒸留フレームワークである。
PSEはVBench-I2V上の他の加速度法よりもセマンティックアライメント,時間的会議,フレーム品質が平均7.15%向上していることを示す。
- 参考スコア(独自算出の注目度): 18.761042377485367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of video diffusion generation faces critical bottlenecks in sampling efficiency, especially for large-scale models and long sequences. Existing video acceleration methods adopt image-based techniques but suffer from fundamental limitations: they neither model the temporal coherence of video frames nor provide single-step distillation for large-scale video models. To bridge this gap, we propose POSE (Phased One-Step Equilibrium), a distillation framework that reduces the sampling steps of large-scale video diffusion models, enabling the generation of high-quality videos in a single step. POSE employs a carefully designed two-phase process to distill video models:(i) stability priming: a warm-up mechanism to stabilize adversarial distillation that adapts the high-quality trajectory of the one-step generator from high to low signal-to-noise ratio regimes, optimizing the video quality of single-step mappings near the endpoints of flow trajectories. (ii) unified adversarial equilibrium: a flexible self-adversarial distillation mechanism that promotes stable single-step adversarial training towards a Nash equilibrium within the Gaussian noise space, generating realistic single-step videos close to real videos. For conditional video generation, we propose (iii) conditional adversarial consistency, a method to improve both semantic consistency and frame consistency between conditional frames and generated frames. Comprehensive experiments demonstrate that POSE outperforms other acceleration methods on VBench-I2V by average 7.15% in semantic alignment, temporal conference and frame quality, reducing the latency of the pre-trained model by 100$\times$, from 1000 seconds to 10 seconds, while maintaining competitive performance.
- Abstract(参考訳): ビデオ拡散生成の分野はサンプリング効率において重要なボトルネックに直面している。
既存のビデオアクセラレーション手法では画像ベースの手法が採用されているが、ビデオフレームの時間的コヒーレンスをモデル化したり、大規模ビデオモデルに単一ステップの蒸留を提供したりするなど、基本的な制限が課されている。
このギャップを埋めるために,大規模なビデオ拡散モデルのサンプリングステップを削減し,高品質な動画を単一ステップで生成できる蒸留フレームワークPOSE(Phased One-Step Equilibrium)を提案する。
POSEは、ビデオモデルを蒸留するために、慎重に設計された2段階のプロセスを採用している。
一 安定プライミング:一段発生器の高品質な軌道を高信号比から低信号比に適応させ、フロー軌道の終端付近の単段写像の映像品質を最適化する対向蒸留を安定化させるウォームアップ機構。
(II) 対向平衡(英語版): ガウス雑音空間内のナッシュ平衡に対する安定な単段対向訓練を促進する柔軟な自己対向蒸留機構で、実ビデオに近い現実的な単段ビデオを生成する。
条件付きビデオ生成のための提案
三 条件逆整合、条件フレームと生成されたフレーム間の意味的整合性とフレームの整合性を改善する方法。
総合的な実験により、POSEはVBench-I2V上の他の加速度法を平均7.15%のセマンティックアライメント、時間的会議、フレーム品質で上回り、事前訓練されたモデルのレイテンシを1000秒から10秒に短縮し、競争性能を維持した。
関連論文リスト
- SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [70.00849074556142]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - OSV: One Step is Enough for High-Quality Image to Video Generation [44.09826880566572]
一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。
また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
論文 参考訳(メタデータ) (2024-09-17T17:16:37Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。