論文の概要: Reinforcement Learning Meets Masked Generative Models: Mask-GRPO for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2510.13418v1
- Date: Wed, 15 Oct 2025 11:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.63841
- Title: Reinforcement Learning Meets Masked Generative Models: Mask-GRPO for Text-to-Image Generation
- Title(参考訳): 強化学習とマスク生成モデル:テキスト・画像生成のためのマスク-GRPO
- Authors: Yifu Luo, Xinhao Hu, Keyu Fan, Haoyuan Sun, Zeyu Chen, Bo Xia, Tiantian Zhang, Yongzhe Chang, Xueqian Wang,
- Abstract要約: Mask-GRPOは、グループ相対政策最適化(GRPO)ベースのテキスト・ツー・イメージ(T2I)学習を、見過ごされたパラダイムに組み込む最初の方法である。
我々の中核となる洞察は、現在のアプローチとは異なる遷移確率を再定義し、マルチステップの意思決定問題として解法プロセスを定式化することである。
Mask-GRPOを用いることで、標準的なT2Iベンチマークと好みのアライメントを大幅に改善し、ベースモデルであるShow-oを改善した。
- 参考スコア(独自算出の注目度): 29.18608226739866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has garnered increasing attention in text-to-image (T2I) generation. However, most existing RL approaches are tailored to either diffusion models or autoregressive models, overlooking an important alternative: masked generative models. In this work, we propose Mask-GRPO, the first method to incorporate Group Relative Policy Optimization (GRPO)-based RL into this overlooked paradigm. Our core insight is to redefine the transition probability, which is different from current approaches, and formulate the unmasking process as a multi-step decision-making problem. To further enhance our method, we explore several useful strategies, including removing the KL constraint, applying the reduction strategy, and filtering out low-quality samples. Using Mask-GRPO, we improve a base model, Show-o, with substantial improvements on standard T2I benchmarks and preference alignment, outperforming existing state-of-the-art approaches. The code is available on https://github.com/xingzhejun/Mask-GRPO
- Abstract(参考訳): 強化学習(RL)はテキスト・ツー・イメージ(T2I)世代で注目を集めている。
しかしながら、既存のほとんどのRLアプローチは拡散モデルまたは自己回帰モデルに適合し、重要な代替案であるマスク生成モデルを見渡すことができる。
本稿では,グループ相対政策最適化(GRPO)に基づくRLをこの見落としのパラダイムに組み込む最初の手法であるMask-GRPOを提案する。
我々の中核となる洞察は、現在のアプローチとは異なる遷移確率を再定義し、マルチステップの意思決定問題として解法プロセスを定式化することである。
提案手法をさらに強化するために,KL制約の除去,削減戦略の適用,低品質サンプルのフィルタリングなど,いくつかの有用な方法を検討する。
Mask-GRPOを用いることで、標準的なT2Iベンチマークと好みのアライメントを大幅に改善し、ベースモデルであるShow-oを改善した。
コードはhttps://github.com/xingzhejun/Mask-GRPOで公開されている。
関連論文リスト
- Understanding and Enhancing Mask-Based Pretraining towards Universal Representations [13.262679155411599]
マスクをベースとした事前訓練は、言語、視覚、生物学にまたがる近代的な大規模モデルの基盤となっている。
マスクによる事前学習の動作は,高次元最小ノルム(リッジレス)線形回帰におけるテストリスクによって直接的に特徴付けられることを示す。
我々はRandomly Random Mask Auto (R$2$MAE)を提案する。
論文 参考訳(メタデータ) (2025-09-25T22:08:25Z) - DanceGRPO: Unleashing GRPO on Visual Generation [42.567425922760144]
強化学習(Reinforcement Learning, RL)は, 微調整型生成モデルにおいて有望なアプローチである。
DDPOやDPOKのような既存の手法は、大規模で多様なプロンプトセットへのスケーリングにおいて基本的な制限に直面している。
本稿では,グループ相対政策最適化の革新的適応を通じて,これらの制約に対処するフレームワークであるDanceGRPOを提案する。
論文 参考訳(メタデータ) (2025-05-12T17:59:34Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Generative Pre-training for Paraphrase Generation by Representing and
Predicting Spans in Exemplars [0.8411385346896411]
本稿では, GPT-2モデルから拡張した言い換え文に対する新しいアプローチを提案する。
本研究では,POSタグを用いたテンプレートマスキング手法を開発し,無関係な単語をマスクアウトする。
提案手法は,特に意味保存面において,競争基準よりも優れている。
論文 参考訳(メタデータ) (2020-11-29T11:36:13Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。