論文の概要: Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
- arxiv url: http://arxiv.org/abs/2512.04678v1
- Date: Thu, 04 Dec 2025 11:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.128222
- Title: Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
- Title(参考訳): RewardForcing: Rewarded Distribution Matching Distillation を用いた効率的なストリーミングビデオ生成
- Authors: Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang,
- Abstract要約: 本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
- 参考スコア(独自算出の注目度): 69.57572900337176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient streaming video generation is critical for simulating interactive and dynamic worlds. Existing methods distill few-step video diffusion models with sliding window attention, using initial frames as sink tokens to maintain attention performance and reduce error accumulation. However, video frames become overly dependent on these static tokens, resulting in copied initial frames and diminished motion dynamics. To address this, we introduce Reward Forcing, a novel framework with two key designs. First, we propose EMA-Sink, which maintains fixed-size tokens initialized from initial frames and continuously updated by fusing evicted tokens via exponential moving average as they exit the sliding window. Without additional computation cost, EMA-Sink tokens capture both long-term context and recent dynamics, preventing initial frame copying while maintaining long-horizon consistency. Second, to better distill motion dynamics from teacher models, we propose a novel Rewarded Distribution Matching Distillation (Re-DMD). Vanilla distribution matching treats every training sample equally, limiting the model's ability to prioritize dynamic content. Instead, Re-DMD biases the model's output distribution toward high-reward regions by prioritizing samples with greater dynamics rated by a vision-language model. Re-DMD significantly enhances motion quality while preserving data fidelity. We include both quantitative and qualitative experiments to show that Reward Forcing achieves state-of-the-art performance on standard benchmarks while enabling high-quality streaming video generation at 23.1 FPS on a single H100 GPU.
- Abstract(参考訳): インタラクティブでダイナミックな世界をシミュレートするには,効率的なストリーミングビデオ生成が不可欠である。
既存の方法では、初期フレームをシンクトークンとして使用して、注意性能を維持し、エラーの蓄積を低減することで、スライドウインドウの注意を伴う数ステップのビデオ拡散モデルを蒸留する。
しかし、ビデオフレームは静的トークンに過度に依存するようになり、初期フレームのコピーと動きのダイナミクスが低下する。
これを解決するために,2つの重要な設計を持つ新しいフレームワークであるReward Forcingを紹介した。
まず,初期フレームから初期化して連続的に更新される固定サイズのトークンを,スライディングウィンドウを出ると指数的な移動平均で凍結して更新するEMA-Sinkを提案する。
追加の計算コストなしで、EMA-Sinkトークンは長期のコンテキストと最近のダイナミクスの両方をキャプチャし、長期の一貫性を維持しながら初期フレームのコピーを防ぐ。
第2に,教師モデルから運動力学をよりよく蒸留するために,Rewarded Distribution Matching Distillation (Re-DMD)を提案する。
バニラ分布マッチングは、すべてのトレーニングサンプルを均等に扱い、モデルの動的コンテンツを優先順位付けする能力を制限する。
代わりに、Re-DMDは、視覚言語モデルによって評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、高逆領域へのモデルの出力分布をバイアスする。
Re-DMDは、データの忠実性を保ちながら、運動品質を著しく向上させる。
我々は、Reward Forcingが標準ベンチマークで最先端のパフォーマンスを実現し、1つのH100 GPU上で23.1 FPSで高品質なストリーミングビデオ生成を可能にすることを示す定量的および定性的な実験の両方を含む。
関連論文リスト
- Adaptive Begin-of-Video Tokens for Autoregressive Video Diffusion Models [11.913945404405865]
ほとんどのビデオ拡散モデル(VDM)は自己回帰的な方法でビデオを生成し、それに続く繰り返しフレームを生成する。
本稿では,自動回帰VDMのためのAdaptive Begin-of-Video Tokens(ada-BOV)を提案する。
論文 参考訳(メタデータ) (2025-11-15T08:29:14Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Playing with Transformer at 30+ FPS via Next-Frame Diffusion [40.04104312955399]
Next-Frame Diffusion (NFD) は、ブロックワイズ因果的注意を組み込んだ自己回帰拡散変換器である。
視覚的品質とサンプリング効率の両面でNFDが自己回帰ベースラインを上回っていることを示す。
310Mモデルを用いて,A100 GPU上で30フレーム/秒(FPS)以上の自己回帰ビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-06-02T07:16:01Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。