論文の概要: Video Generation Models Are Good Latent Reward Models
- arxiv url: http://arxiv.org/abs/2511.21541v1
- Date: Wed, 26 Nov 2025 16:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.189184
- Title: Video Generation Models Are Good Latent Reward Models
- Title(参考訳): ビデオ生成モデルは遅延リワードモデルとして優れている
- Authors: Xiaoyue Mi, Wenqing Yu, Jiesong Lian, Shibo Jie, Ruizhe Zhong, Zijun Liu, Guozhen Zhang, Zixiang Zhou, Zhiyong Xu, Yuan Zhou, Qinglin Lu, Fan Tang,
- Abstract要約: リワードフィードバック学習(ReFL)は、画像生成を人間の好みに合わせるのに有効であることが証明されている。
既存のビデオ報酬モデルは、ピクセル空間入力用に設計された視覚言語モデルに依存している。
Process Reward Feedback Learning(PRFL)は、遅延空間で完全に好みの最適化を行うフレームワークである。
- 参考スコア(独自算出の注目度): 35.261036369253524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward feedback learning (ReFL) has proven effective for aligning image generation with human preferences. However, its extension to video generation faces significant challenges. Existing video reward models rely on vision-language models designed for pixel-space inputs, confining ReFL optimization to near-complete denoising steps after computationally expensive VAE decoding. This pixel-space approach incurs substantial memory overhead and increased training time, and its late-stage optimization lacks early-stage supervision, refining only visual quality rather than fundamental motion dynamics and structural coherence. In this work, we show that pre-trained video generation models are naturally suited for reward modeling in the noisy latent space, as they are explicitly designed to process noisy latent representations at arbitrary timesteps and inherently preserve temporal information through their sequential modeling capabilities. Accordingly, we propose Process Reward Feedback Learning~(PRFL), a framework that conducts preference optimization entirely in latent space, enabling efficient gradient backpropagation throughout the full denoising chain without VAE decoding. Extensive experiments demonstrate that PRFL significantly improves alignment with human preferences, while achieving substantial reductions in memory consumption and training time compared to RGB ReFL.
- Abstract(参考訳): リワードフィードバック学習(ReFL)は、画像生成を人間の好みに合わせるのに有効であることが証明されている。
しかし、ビデオ生成への拡張は大きな課題に直面している。
既存のビデオ報酬モデルは、ピクセル空間入力用に設計された視覚言語モデルに依存しており、計算コストの高いVAE復号後のReFL最適化をほぼ完全な復号化ステップに集約している。
このピクセル空間アプローチは、メモリオーバーヘッドを大幅に増加させ、トレーニング時間を増大させ、後期最適化には早期の監督が欠如しており、基本的な運動力学や構造的コヒーレンスよりも視覚的品質のみを洗練している。
本研究では,事前学習したビデオ生成モデルは,任意のタイミングでノイズの多い遅延表現を処理し,時系列モデリング機能を通じて時間情報を本質的に保存するように設計されているため,ノイズの多い潜在空間における報酬モデリングに自然に適していることを示す。
そこで我々は,プロセス・リワードフィードバック・ラーニング(PRFL)を提案し,VAE復号化を伴わずに全デノナイジング・チェーン全体の効率的な勾配逆伝播を可能にする。
PRFLは、RGB ReFLと比較して、メモリ消費とトレーニング時間を大幅に短縮しつつ、人間の嗜好との整合性を著しく改善することを示した。
関連論文リスト
- Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation [53.877572078307935]
蒸留ビデオ生成モデルは、高速で効率的なが、参照ビデオによってガイドされるときの動きのカスタマイズに苦労する。
拡散教師の強制力を活用して運動のカスタマイズを可能にする訓練不要な試験時間蒸留フレームワークであるMotionEchoを提案する。
論文 参考訳(メタデータ) (2025-06-24T06:20:15Z) - Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [46.50233461744791]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
事前学習した拡散モデルは,ノイズのある潜在空間におけるステップレベルの報酬モデルに自然に適していることを示す。
雑音の多い遅延空間で直接実行されるステップレベルの優先度最適化手法であるLatent Preference Optimization (LPO)を導入する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Learning Fine-Grained Visual Understanding for Video Question Answering
via Decoupling Spatial-Temporal Modeling [28.530765643908083]
空間的時間的モデリングを分離し、画像とビデオ言語を統合して、きめ細かい視覚的理解を学習する。
本稿では,ビデオシーケンス中の事象の時間的位置を特定することを必要とする,新たな事前学習対象であるテンポラル参照モデリングを提案する。
我々のモデルは、桁違いの大きなデータセットで事前訓練された以前の作業より優れています。
論文 参考訳(メタデータ) (2022-10-08T07:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。