論文の概要: Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
- arxiv url: http://arxiv.org/abs/2505.17017v1
- Date: Thu, 22 May 2025 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.562367
- Title: Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
- Title(参考訳): CoTを用いた画像生成のためのRLへの埋め込み:DPO vs. GRPOの検討
- Authors: Chengzhuo Tong, Ziyu Guo, Renrui Zhang, Wenyu Shan, Xinyu Wei, Zhenghao Xing, Hongsheng Li, Pheng-Ann Heng,
- Abstract要約: 自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
- 参考スコア(独自算出の注目度): 68.44918104224818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements underscore the significant role of Reinforcement Learning (RL) in enhancing the Chain-of-Thought (CoT) reasoning capabilities of large language models (LLMs). Two prominent RL algorithms, Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO), are central to these developments, showcasing different pros and cons. Autoregressive image generation, also interpretable as a sequential CoT reasoning process, presents unique challenges distinct from LLM-based CoT reasoning. These encompass ensuring text-image consistency, improving image aesthetic quality, and designing sophisticated reward models, rather than relying on simpler rule-based rewards. While recent efforts have extended RL to this domain, these explorations typically lack an in-depth analysis of the domain-specific challenges and the characteristics of different RL strategies. To bridge this gap, we provide the first comprehensive investigation of the GRPO and DPO algorithms in autoregressive image generation, evaluating their in-domain performance and out-of-domain generalization, while scrutinizing the impact of different reward models on their respective capabilities. Our findings reveal that GRPO and DPO exhibit distinct advantages, and crucially, that reward models possessing stronger intrinsic generalization capabilities potentially enhance the generalization potential of the applied RL algorithms. Furthermore, we systematically explore three prevalent scaling strategies to enhance both their in-domain and out-of-domain proficiency, deriving unique insights into efficiently scaling performance for each paradigm. We hope our study paves a new path for inspiring future work on developing more effective RL algorithms to achieve robust CoT reasoning in the realm of autoregressive image generation. Code is released at https://github.com/ZiyuGuo99/Image-Generation-CoT
- Abstract(参考訳): 近年の進歩は,大規模言語モデル (LLM) のチェイン・オブ・ソート (CoT) 推論能力の向上において,強化学習 (RL) が重要な役割を担っていることを示している。
2つの顕著なRLアルゴリズム、DPO(Direct Preference Optimization)とGRPO(Group Relative Policy Optimization)はこれらの開発の中心であり、異なる長所と短所を示す。
自己回帰画像生成は、逐次的CoT推論プロセスとしても解釈可能であり、LLMベースのCoT推論とは異なる固有の課題を提示する。
これらは、より単純なルールベースの報酬に頼るのではなく、テキストイメージの一貫性の確保、画像の美的品質の向上、洗練された報酬モデルの設計を含む。
近年の取り組みはRLをこの領域に拡張しているが、これらの探索はドメイン固有の課題と異なるRL戦略の特徴の詳細な分析を欠いている。
このギャップを埋めるために,我々は,自己回帰画像生成におけるGRPOとDPOのアルゴリズムを包括的に調査し,ドメイン内性能とドメイン外一般化を評価し,それぞれの能力に対する異なる報酬モデルの影響を精査した。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
さらに、我々は、ドメイン内およびドメイン外習熟度の両方を強化するために、3つの一般的なスケーリング戦略を体系的に検討し、各パラダイムの効率的なスケーリングパフォーマンスに関するユニークな洞察を導き出す。
我々は, 自己回帰画像生成の領域において, 堅牢なCoT推論を実現するために, より効率的なRLアルゴリズムの開発に向けた, 今後の研究の道を開くことを願っている。
Codeはhttps://github.com/ZiyuGuo99/Image-Generation-CoTでリリースされる
関連論文リスト
- SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Boosting Federated Domain Generalization: Understanding the Role of Advanced Pre-Trained Architectures [27.386915138058416]
本稿では,ViT,ConvNeXt,Swin Transformersといった先進的な事前学習型アーキテクチャの有効性について検討した。
我々は、ImageNet-1K、ImageNet-21K、JFT-300M、ImageNet-22Kといった広範囲な事前学習データセットを用いて、これらのアーキテクチャの様々なバリエーションを評価する。
パラメータが少ないにもかかわらず、より大規模なResNetモデルよりも優れたモデルが存在することを観察する。
論文 参考訳(メタデータ) (2024-09-20T14:09:05Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Keep Various Trajectories: Promoting Exploration of Ensemble Policies in
Continuous Control [17.64972760231609]
本研究ではTEENと呼ばれる新しいアンサンブルRLアルゴリズムを提案する。
TEENは、サブ政治のみを使用する場合と比較して、アンサンブル政策のサンプル多様性を高める。
TEENは、試験された代表環境において、ベースラインアンサンブルDRLアルゴリズムを平均41%向上させる。
論文 参考訳(メタデータ) (2023-10-17T10:40:05Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。