論文の概要: One-Forcing: Towards Stable One-Step Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2605.23458v1
- Date: Fri, 22 May 2026 10:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.306889
- Title: One-Forcing: Towards Stable One-Step Autoregressive Video Generation
- Title(参考訳): One-Forcing: 安定したワンステップオートレグレッシブビデオ生成を目指す
- Authors: Jiaqi Feng, Justin Cui, Yuanhao Ban, Cho-Jui Hsieh,
- Abstract要約: ワンフォース(英: One-Forcing)は、DMDの目的を高画質かつ効率的なワンステップビデオ生成のための補助的なGAN損失で増大させる、単純で効果的なアプローチである。
ワンフォースは83.76のスコアを獲得し、ワンステップの因果ビデオ生成方法の中で最先端のパフォーマンスを確立する。
- 参考スコア(独自算出の注目度): 48.93167853711741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have substantially improved real-time interactive video generation in the autoregressive regime. However, most existing few-step autoregressive video generation methods, often distilled from a corresponding many-step teacher, default to a 4-step sampling configuration, which still incurs considerable latency during deployment and suffers from severe quality degradation when the number of sampling steps is further reduced, particularly in the one-step setting. Trajectory-style consistency distillation methods often produce videos with weak dynamics, while DMD-based approaches, such as Self-Forcing, tend to yield blurry frames. To address this challenge, we propose One-Forcing, a simple yet effective approach which augments the DMD objective with an auxiliary GAN loss for high-quality and efficient one-step video generation. Experiments on VBench show that One-Forcing achieves a total score of 83.76, establishing state-of-the-art performance among one-step causal video generation methods and remaining competitive with strong many-step approaches. We further demonstrate that one-step framewise autoregressive generation can be achieved stably with merely one-third of the training cost of the chunkwise model, a setting that prior methods have failed to achieve successfully.
- Abstract(参考訳): 近年の進歩は、自己回帰体制におけるリアルタイムインタラクティブビデオ生成を大幅に改善している。
しかし、既存の数段階の自己回帰ビデオ生成手法は、しばしば対応する多段階の教師から抽出され、デフォルトでは4段階のサンプリング構成となっている。
トラジェクトリスタイルの一貫性蒸留法は、弱いダイナミックスを持つビデオを生成することが多いが、セルフフォースのようなMDDベースの手法は、ぼやけたフレームを生成する傾向がある。
この課題に対処するために,高画質かつ効率的なワンステップビデオ生成のための補助的なGAN損失でMDD目標を増強する,シンプルで効果的なワンフォース方式を提案する。
VBenchの実験では、ワンフォースが83.76のスコアを達成し、ワンステップの因果ビデオ生成手法の最先端性能を確立し、強力な多段階アプローチと競合し続けることが示されている。
さらに、一段階のフレームワイド自己回帰生成は、チャンクワイドモデルのトレーニングコストの3分の1しか安定して達成できないことを実証する。
関連論文リスト
- TurboTalk: Progressive Distillation for One-Step Audio-Driven Talking Avatar Generation [48.460504727347036]
本稿では,多段階の音声駆動型ビデオ拡散モデルを効果的に圧縮する2段階のプログレッシブ蒸留フレームワークを提案する。
提案手法は,音声アバターの単段階生成を実現し,高画質を維持しつつ,推論速度を120倍に向上させる。
論文 参考訳(メタデータ) (2026-04-16T03:19:29Z) - GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation [48.965157828225074]
高速かつ高品質なビデオ生成のための拡散過程を高速化するフレームワークであるGPD(Guid Progressive Distillation)を提案する。
GPDは、VBench上での競争的な視覚的品質を維持しながら、サンプリングステップを48から6に減らす。
論文 参考訳(メタデータ) (2026-02-02T08:47:33Z) - Towards One-step Causal Video Generation via Adversarial Self-Distillation [71.30373662465648]
最近のハイブリッドビデオ生成モデルは、自己回帰時間力学と拡散に基づく空間認知を組み合わせている。
我々のフレームワークは、複数の推論ステップ設定を柔軟にサポートする単一の蒸留モデルを生成する。
論文 参考訳(メタデータ) (2025-11-03T10:12:47Z) - SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。