論文の概要: RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO
- arxiv url: http://arxiv.org/abs/2605.15190v1
- Date: Thu, 14 May 2026 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.016805
- Title: RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO
- Title(参考訳): RAVEN: 一貫性モデルGRPOを用いたリアルタイム自動回帰ビデオ外挿
- Authors: Yanzuo Lu, Ronglai Zuo, Jiankang Deng,
- Abstract要約: 因果自己回帰ビデオ拡散モデルは、以前生成されたコンテンツから将来のチャンクを外挿することでリアルタイムストリーミング生成をサポートする。
本稿では,リアルタイム自動回帰ビデオ補間ネットワーク(RAVEN)を紹介した。これは,各自己ロールアウトを,クリーンな歴史的エンドポイントのインターリーブシーケンスに再パッケージするトレーニングタイムテストフレームワークである。
- 参考スコア(独自算出の注目度): 53.38929612273108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.
- Abstract(参考訳): 因果自己回帰ビデオ拡散モデルは、以前生成されたコンテンツから将来のチャンクを外挿することでリアルタイムストリーミング生成をサポートする。
高忠実度双方向教師からこれらのジェネレータを蒸留すると、競争力のある数ステップモデルが得られるが、トレーニング中に遭遇した履歴分布と推論制約で発生するものとは、長い地平線上での世代品質の持続的なギャップがある。
本稿では,実時間自動回帰ビデオ補間ネットワーク(RAVEN)を紹介した。これは,各自己ロールアウトを,クリーンな歴史的エンドポイントとノイズの多い騒音のある状態のインターリーブシーケンスに再パッケージする訓練時テストフレームワークである。
この定式化は、トレーニングの注意を推論時外挿と整合させ、下流のチャンクの損失を、将来の予測が依存する履歴表現を監督することを可能にする。
さらに、コンシステンシーモデルグループ相対政策最適化(CM-GRPO)を提案し、コンシステンシーサンプリングステップを条件付きガウス遷移として再構成し、オンライン強化学習(RL)をこのカーネルに直接適用し、以前のフローモデルRLの定式化で採用されるオイラー・丸山補助プロセスを回避する。
実験により、RAVENは、品質、意味、動的度の評価において、最近の因果ビデオ蒸留ベースラインを超越し、CM-GRPOはRAVENと組み合わせることでさらなる利益をもたらすことが示された。
関連論文リスト
- Preserving Temporal Dynamics in Time Series Generation [0.2099922236065961]
時系列データの増大は回帰指向予測タスクにおいて重要な役割を果たす。
既存のアプローチは主に、限界データ分布のマッチングに重点を置いている。
モデルに依存しないマルコフ・チェイン・モンテカルロフレームワークを提案し、分布シフトを緩和し、時間的ダイナミクスを保存する。
論文 参考訳(メタデータ) (2026-04-29T20:32:45Z) - Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model [26.672519467929686]
ターゲット話者抽出(TSE)のストリーミングに適した,最初の自己回帰型(AR)モデルを提案する。
提案手法では,高効率かつ安定したストリーミング推論を実現するために,チャンクワイズ・インターリーブド・スプリシング・パラダイムを導入している。
Libri2Mixの実験では、AR生成ベースラインは低レイテンシで性能劣化を示すが、本手法は100%安定性と優れた知性を維持している。
論文 参考訳(メタデータ) (2026-04-21T16:25:22Z) - End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Generative Pre-trained Autoregressive Diffusion Transformer [74.25668109048418]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。