論文の概要: DanceGRPO: Unleashing GRPO on Visual Generation
- arxiv url: http://arxiv.org/abs/2505.07818v3
- Date: Fri, 08 Aug 2025 07:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:29.319486
- Title: DanceGRPO: Unleashing GRPO on Visual Generation
- Title(参考訳): DanceGRPO: ビジュアルジェネレーションでGRPOを開放する
- Authors: Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, 微調整型生成モデルにおいて有望なアプローチである。
DDPOやDPOKのような既存の手法は、大規模で多様なプロンプトセットへのスケーリングにおいて基本的な制限に直面している。
本稿では,グループ相対政策最適化の革新的適応を通じて,これらの制約に対処するフレームワークであるDanceGRPOを提案する。
- 参考スコア(独自算出の注目度): 36.36813831536346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative AI have revolutionized visual content creation, yet aligning model outputs with human preferences remains a critical challenge. While Reinforcement Learning (RL) has emerged as a promising approach for fine-tuning generative models, existing methods like DDPO and DPOK face fundamental limitations - particularly their inability to maintain stable optimization when scaling to large and diverse prompt sets, severely restricting their practical utility. This paper presents DanceGRPO, a framework that addresses these limitations through an innovative adaptation of Group Relative Policy Optimization (GRPO) for visual generation tasks. Our key insight is that GRPO's inherent stability mechanisms uniquely position it to overcome the optimization challenges that plague prior RL-based approaches on visual generation. DanceGRPO establishes several significant advances: First, it demonstrates consistent and stable policy optimization across multiple modern generative paradigms, including both diffusion models and rectified flows. Second, it maintains robust performance when scaling to complex, real-world scenarios encompassing three key tasks and four foundation models. Third, it shows remarkable versatility in optimizing for diverse human preferences as captured by five distinct reward models assessing image/video aesthetics, text-image alignment, video motion quality, and binary feedback. Our comprehensive experiments reveal that DanceGRPO outperforms baseline methods by up to 181\% across multiple established benchmarks, including HPS-v2.1, CLIP Score, VideoAlign, and GenEval. Our results establish DanceGRPO as a robust and versatile solution for scaling Reinforcement Learning from Human Feedback (RLHF) tasks in visual generation, offering new insights into harmonizing reinforcement learning and visual synthesis.
- Abstract(参考訳): 生成AIの最近の進歩は、視覚コンテンツ作成に革命をもたらしたが、モデル出力と人間の好みを合わせることは、依然として重要な課題である。
強化学習(Reinforcement Learning, RL)は、微調整生成モデルのための有望なアプローチとして登場したが、DDPOやDPOKのような既存の手法は、特に大規模で多様なプロンプトセットへのスケーリングにおいて安定した最適化を維持することができないため、実用性を大幅に制限する、基本的な制限に直面している。
本稿では,これらの制約に対処するフレームワークであるDanceGRPOを提案する。
我々の重要な洞察は、GRPOの固有の安定性メカニズムが、視覚生成におけるRLベースのアプローチに悩まされる最適化課題を克服するために、一意にそれを位置づけていることである。
DanceGRPOはいくつかの重要な進歩を確立している。 まず、拡散モデルと修正フローの両方を含む、複数の近代的な生成パラダイムにまたがる一貫性と安定したポリシー最適化を示す。
第2に,3つの重要なタスクと4つの基盤モデルを含む,複雑な実世界のシナリオへのスケーリングでは,堅牢なパフォーマンスを維持している。
第3に、画像/映像の美学、テキスト画像のアライメント、動画の運動品質、バイナリフィードバックを評価する5つの異なる報酬モデルによって捉えられるように、多様な人間の嗜好を最適化する際、顕著な万能性を示す。
総合的な実験により、DanceGRPOはHPS-v2.1、CLIPスコア、VideoAlign、GenEvalなど、複数の確立されたベンチマークで、ベースラインメソッドを最大181\%上回っていることがわかった。
本研究では,RLHF(Reinforcement Learning from Human Feedback)タスクを視覚的に拡張するための堅牢で汎用的なソリューションとしてDanceGRPOを確立し,強化学習と視覚合成の調和に関する新たな洞察を提供する。
関連論文リスト
- Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling [80.30976039119236]
Lumina-mGPT 2.0はスタンドアロンのデコーダのみの自己回帰モデルである。
完全にスクラッチからトレーニングされ、制限のないアーキテクチャ設計とライセンスの自由を可能にする。
それは最先端の拡散モデルと同等に生成品質を達成する。
論文 参考訳(メタデータ) (2025-07-23T17:42:13Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - Learning Graph Representation of Agent Diffuser [9.402103660431793]
拡散に基づく生成モデルは高度なテキスト-画像合成を持つ。
この遷移は、静的モデルパラメータが生成の異なるフェーズに最適に対応していないことを示唆している。
本稿では,動的コンピュータビジョンタスクの適応性向上を目的とした,新しいマルチエージェントシステムであるLGR-ADを紹介する。
論文 参考訳(メタデータ) (2025-05-10T21:42:24Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - HuViDPO:Enhancing Video Generation through Direct Preference Optimization for Human-Centric Alignment [13.320911720001277]
本稿では,テキスト・ツー・ビデオ(T2V)タスクにDPO(Direct Preference Optimization)の戦略を導入する。
既存のT2V生成手法では、人間の好みで生成されたビデオのアライメントをガイドする、正確な損失関数を備えた十分に整形されたパイプラインが欠如している。
論文 参考訳(メタデータ) (2025-02-02T16:55:42Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。