論文の概要: KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
- arxiv url: http://arxiv.org/abs/2605.14278v1
- Date: Thu, 14 May 2026 02:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.086927
- Title: KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
- Title(参考訳): KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
- Authors: Ruicheng Zhang, Kaixi Cong, Jun Zhou, Zhizhou Zhong, Zunnan Xu, Shuiyang Mao, Wei Liu, Xiu Li,
- Abstract要約: 我々は、ストリーミングビデオジェネレータを人間の好みに合わせるためのODEネイティブフレームワークであるKVPOを提案する。
多様性探索のために、KVPOはノイズから歴史的KVキャッシュへの変化源を移動させる因果的探索パラダイムを導入した。
政策モデリングにおいて,KVPOは軌道速度エネルギーに基づく速度場代理ポリシーを導入する。
- 参考スコア(独自算出の注目度): 20.914865850725402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning streaming autoregressive (AR) video generators with human preferences is challenging. Existing reinforcement learning methods predominantly rely on noise-based exploration and SDE-based surrogate policies that are mismatched to the deterministic ODE dynamics of distilled AR models, and tend to perturb low-level appearance rather than the high-level semantic storyline progression critical for long-horizon coherence. To address these limitations, we present KVPO, an ODE-native online Group Relative Policy Optimization (GRPO) framework for aligning streaming video generators. For diversity exploration, KVPO introduces a causal-semantic exploration paradigm that relocates the source of variation from stochastic noise to the historical KV cache. By stochastically routing historical KV entries, it constructs semantically diverse generation branches that remain strictly on the data manifold. For policy modeling, KVPO introduces a velocity-field surrogate policy based on Trajectory Velocity Energy (TVE), which quantifies branch likelihood in flow-matching velocity space and yields a reward-weighted contrastive objective fully consistent with the native ODE formulation. Experiments on multiple distilled AR video generators demonstrate consistent gains in visual quality, motion quality, and text-video alignment across both single-prompt short-video and multi-prompt long-video settings.
- Abstract(参考訳): ストリーミング自動回帰(AR)ビデオジェネレータを人間の好みで調整することは難しい。
既存の強化学習手法は、主にノイズに基づく探索とSDEに基づくサロゲートポリシーに依存しており、これは蒸留されたARモデルの決定論的ODEダイナミクスと一致せず、長い水平コヒーレンスに不可欠な高レベルなセマンティックストーリーライン進行よりも低レベルな外観を邪魔する傾向がある。
これらの制約に対処するため、KVPOは、ストリーミングビデオジェネレータの整列のためのODEネイティブオンライングループ相対ポリシー最適化(GRPO)フレームワークである。
多様性探索のために、KVPOは因果関係探索パラダイムを導入し、確率ノイズから歴史的KVキャッシュへの変化源を移動させる。
歴史的KVエントリを確率的にルーティングすることで、データ多様体に厳密に残る意味的に多様な世代分岐を構成する。
KVPOは,フローマッチング速度空間における分岐確率を定量化し,ネイティブODEの定式化と完全に整合した報酬重み付きコントラッシブな目的を与える,軌道速度エネルギー(TVE)に基づく速度場サロゲートポリシーを導入する。
複数の蒸留ARビデオジェネレータの実験では、単一プロンプトのショートビデオとマルチプロンプトのロングビデオの両方で、視覚的品質、運動品質、テキストビデオアライメントが一貫した向上を示した。
関連論文リスト
- SoLAR: Error-Resilient Streamable Long-Horizon Free-Viewpoint Video Reconstruction with Anchor Activation and Latent Recalibration [57.159190580279585]
ビット割り当て理論により、速度歪み最適化フレームワーク内で動的アンカーベースのボリュームビデオ表現を解析する。
我々は,長いシーケンスの復元品質を安定的に維持する,エラー回復性の最初のFVVフレームワークである textbfSoLAR を提案する。
論文 参考訳(メタデータ) (2026-05-08T06:48:59Z) - Manifold-Aware Exploration for Reinforcement Learning in Video Generation [62.48300523142513]
FlowGRPOのようなビデオ生成のためのグループ相対ポリシー最適化(GRPO)手法は、言語モデルや画像よりもはるかに信頼性が低い。
このギャップは、ビデオ生成が複雑な解空間を持ち、探索に使用されるODE-to-SDE変換が余剰ノイズを注入できるため生じる。
SAGE-GRPO(Stable Alignment via Exploration)を提案する。
論文 参考訳(メタデータ) (2026-03-23T12:04:38Z) - Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models [58.3184497327891]
蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
蒸留ARモデルに適した効率的なオンライン強化学習フレームワークであるAstrolabeを提案する。
論文 参考訳(メタデータ) (2026-03-17T18:32:18Z) - Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving [26.379817613036597]
CVD-STORMは時空間再構成変分オートエンコーダ(VAE)を利用したクロスビュービデオ拡散モデルである
提案手法は,まず補助的な4次元再構成タスクでVAEを微調整し,その3次元構造と時間的ダイナミクスをエンコードする能力を向上する。
実験結果から,FIDとFVDの両指標の精度向上が得られた。
論文 参考訳(メタデータ) (2025-10-09T08:41:58Z) - SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [42.73124501421074]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。