論文の概要: Harness Local Rewards for Global Benefits: Effective Text-to-Video Generation Alignment with Patch-level Reward Models
- arxiv url: http://arxiv.org/abs/2502.06812v2
- Date: Mon, 17 Feb 2025 20:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:01:08.615510
- Title: Harness Local Rewards for Global Benefits: Effective Text-to-Video Generation Alignment with Patch-level Reward Models
- Title(参考訳): グローバルベネフィットのためのハーネスローカルリワード:パッチレベルのリワードモデルを用いた効果的なテキスト・ビデオ生成アライメント
- Authors: Shuting Wang, Haihong Tang, Zhicheng Dou, Chenyan Xiong,
- Abstract要約: 本稿では,パッチ報酬モデルからの局所的なフィードバックを明示的に取り入れた,VGMのためのポストトレーニング戦略HALOを提案する。
効果的なパッチ報酬モデルを開発するために,GPT-4oを蒸留し,映像報酬モデルを継続的に訓練する。
VGM最適化にパッチ報酬を調和的に組み込むため、DMのための粒度DPO(Gran-DPO)アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 38.98156652382102
- License:
- Abstract: The emergence of diffusion models (DMs) has significantly improved the quality of text-to-video generation models (VGMs). However, current VGM optimization primarily emphasizes the global quality of videos, overlooking localized errors, which leads to suboptimal generation capabilities. To address this issue, we propose a post-training strategy for VGMs, HALO, which explicitly incorporates local feedback from a patch reward model, providing detailed and comprehensive training signals with the video reward model for advanced VGM optimization. To develop an effective patch reward model, we distill GPT-4o to continuously train our video reward model, which enhances training efficiency and ensures consistency between video and patch reward distributions. Furthermore, to harmoniously integrate patch rewards into VGM optimization, we introduce a granular DPO (Gran-DPO) algorithm for DMs, allowing collaborative use of both patch and video rewards during the optimization process. Experimental results indicate that our patch reward model aligns well with human annotations and HALO substantially outperforms the baselines across two evaluation methods. Further experiments quantitatively prove the existence of patch defects, and our proposed method could effectively alleviate this issue.
- Abstract(参考訳): 拡散モデル(DM)の出現により,テキスト・ビデオ生成モデル(VGM)の品質が大幅に向上した。
しかしながら、現在のVGM最適化は、主にビデオのグローバルな品質を強調し、局所的なエラーを見落とし、最適以下の生成能力をもたらす。
この問題に対処するため、我々はパッチ報酬モデルからの局所的なフィードバックを明示的に取り入れたVGMのポストトレーニング戦略HALOを提案し、より高度なVGM最適化のためのビデオ報酬モデルで詳細な総合的なトレーニング信号を提供する。
効果的なパッチ報酬モデルを開発するために,GPT-4oを蒸留してビデオ報酬モデルを継続的に訓練し,トレーニング効率を高め,ビデオとパッチ報酬の分布の整合性を確保する。
さらに、VGM最適化にパッチ報酬を調和的に組み込むため、最適化プロセス中にパッチ報酬とビデオ報酬の協調利用を可能にする粒度のDPO(Gran-DPO)アルゴリズムを導入している。
実験の結果,パッチ報酬モデルは人間のアノテーションとよく一致し,HALOは2つの評価手法でベースラインを大幅に上回ることがわかった。
さらなる実験によりパッチ欠陥の存在が定量的に証明され,提案手法はこの問題を効果的に緩和することができる。
関連論文リスト
- Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment [0.618727087412292]
大規模言語モデル(LLM)のアライメントは、有用で無害なコンテンツを生成するために不可欠である。
既存のアプローチでは、好みに基づく人間のフィードバックデータを利用して報酬関数を学習する。
近似変分アライメント学習(AVRIL)によるLLMアライメントを実現するための新しいトレーニング目標である近似変分アライメント(AVA)を提案する。
論文 参考訳(メタデータ) (2024-11-14T10:37:34Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。
テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。
本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。
提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-09-25T20:59:33Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。