論文の概要: Improving Video Generation with Human Feedback
- arxiv url: http://arxiv.org/abs/2501.13918v1
- Date: Thu, 23 Jan 2025 18:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:39.586270
- Title: Improving Video Generation with Human Feedback
- Title(参考訳): 人間のフィードバックによる映像生成の改善
- Authors: Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Wenyu Qin, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang,
- Abstract要約: ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
- 参考スコア(独自算出の注目度): 81.48120703718774
- License:
- Abstract: Video generation has achieved significant advances through rectified flow techniques, but issues like unsmooth motion and misalignment between videos and prompts persist. In this work, we develop a systematic pipeline that harnesses human feedback to mitigate these problems and refine the video generation model. Specifically, we begin by constructing a large-scale human preference dataset focused on modern video generation models, incorporating pairwise annotations across multi-dimensions. We then introduce VideoReward, a multi-dimensional video reward model, and examine how annotations and various design choices impact its rewarding efficacy. From a unified reinforcement learning perspective aimed at maximizing reward with KL regularization, we introduce three alignment algorithms for flow-based models by extending those from diffusion models. These include two training-time strategies: direct preference optimization for flow (Flow-DPO) and reward weighted regression for flow (Flow-RWR), and an inference-time technique, Flow-NRG, which applies reward guidance directly to noisy videos. Experimental results indicate that VideoReward significantly outperforms existing reward models, and Flow-DPO demonstrates superior performance compared to both Flow-RWR and standard supervised fine-tuning methods. Additionally, Flow-NRG lets users assign custom weights to multiple objectives during inference, meeting personalized video quality needs. Project page: https://gongyeliu.github.io/videoalign.
- Abstract(参考訳): ビデオ生成は、補正されたフロー技術によって大きな進歩を遂げてきたが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
本研究では、人間のフィードバックを利用してこれらの問題を緩和し、映像生成モデルを洗練するシステムパイプラインを開発する。
具体的には、複数次元にまたがるペアワイズアノテーションを組み込んだ、現代的なビデオ生成モデルに焦点を当てた大規模なヒューマン嗜好データセットの構築から始める。
次に,多次元ビデオ報酬モデルであるVideoRewardを紹介する。
KL正則化による報酬の最大化を目的とした統合強化学習の観点から,拡散モデルからフローベースモデルのアライメントアルゴリズムを3つ導入する。
これには、フローの直接優先最適化(Flow-DPO)とフローの報酬重み付け回帰(Flow-RWR)の2つのトレーニング時間戦略と、ノイズの多いビデオに直接報酬ガイダンスを適用する推論時間技術であるFlow-NRGが含まれる。
実験結果から, VideoReward は既存の報酬モデルよりも大幅に優れており,Flow-RWR や標準教師付き微調整法に比べ,Flow-DPO は優れた性能を示した。
さらにFlow-NRGでは、推論中にカスタムウェイトを複数の目的に割り当て、パーソナライズされたビデオ品質のニーズを満たすことができる。
プロジェクトページ: https://gongyeliu.github.io/videoalign.com
関連論文リスト
- Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search [23.3627657867351]
アライメント問題に大きな注目を集めており、コンテンツの良さに基づいて拡散モデルの出力を操縦する。
本稿では,アライメント報酬を最大化するために,より優れた拡散潜時を選択できるルックアヘッド推定器を用いた拡散潜時ビーム探索を提案する。
本手法は,モデルパラメータを更新することなく,キャリブレーションされた報酬に基づいて知覚品質を向上させることを実証する。
論文 参考訳(メタデータ) (2025-01-31T16:09:30Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。