論文の概要: ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL
- arxiv url: http://arxiv.org/abs/2505.24875v2
- Date: Thu, 05 Jun 2025 17:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.148729
- Title: ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL
- Title(参考訳): ReasonGen-R1:SFTおよびRLによる自己回帰画像生成モデルのためのCoT
- Authors: Yu Zhang, Yunqi Li, Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu,
- Abstract要約: 連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 54.100889131719626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP, their integration into generative vision models remains underexplored. We introduce ReasonGen-R1, a two-stage framework that first imbues an autoregressive image generator with explicit text-based "thinking" skills via supervised fine-tuning on a newly generated reasoning dataset of written rationales, and then refines its outputs using Group Relative Policy Optimization. To enable the model to reason through text before generating images, We automatically generate and release a corpus of model crafted rationales paired with visual prompts, enabling controlled planning of object layouts, styles, and scene compositions. Our GRPO algorithm uses reward signals from a pretrained vision language model to assess overall visual quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong baselines and prior state-of-the-art models. More: aka.ms/reasongen.
- Abstract(参考訳): チェーンオブ思考推論と強化学習(RL)はNLPのブレークスルーを導いたものの、生成的視覚モデルへの統合は未解明のままである。
ReasonGen-R1は、2段階のフレームワークで、まず、新たに生成された有理数の推論データセットを教師付き微調整することで、明示的なテキストベースの「思考」スキルを持つ自動回帰画像生成装置を付与し、グループ相対ポリシー最適化を用いて出力を洗練する。
画像を生成する前に、モデルがテキストで推論できるように、視覚的なプロンプトと組み合わせたモデル構築された有理数のコーパスを自動生成してリリースし、オブジェクトレイアウト、スタイル、シーン構成の制御された計画を可能にする。
我々のGRPOアルゴリズムは、事前訓練された視覚言語モデルからの報酬信号を用いて、全体的な視覚的品質を評価し、更新毎にポリシーを最適化する。
GenEval, DPG, T2I ベンチマークの評価は、ReasonGen-R1 が強いベースラインや最先端モデルよりも一貫して優れていることを示している。
詳しくはAka.ms/reasongenを参照。
関連論文リスト
- GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning [47.592351387052545]
GoT-R1は、視覚生成における意味空間推論を強化するために強化学習を適用するフレームワークである。
本稿では,MLLMを用いた2段階多次元報酬フレームワークを提案する。
実験の結果, T2I-CompBenchベンチマークで有意な改善が認められた。
論文 参考訳(メタデータ) (2025-05-22T17:59:58Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - DanceGRPO: Unleashing GRPO on Visual Generation [36.36813831536346]
本稿では,グループ相対政策最適化を視覚生成パラダイムに適用する最初の統合フレームワークであるDanceGRPOを紹介する。
我々は、HPS-v2.1、CLIP Score、VideoAlign、GenEvalなどのベンチマークでベースラインを最大181%上回る、一貫性と実質的な改善を示す。
本研究では,DanceGRPOを視覚生成におけるヒューマンフィードバックタスクからの強化学習のスケールアップのための堅牢で汎用的なソリューションとして確立し,強化学習と視覚合成の調和に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-05-12T17:59:34Z) - Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。
NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:44:01Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。