論文の概要: UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2604.18518v2
- Date: Tue, 21 Apr 2026 03:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.953166
- Title: UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models
- Title(参考訳): UDM-GRPO:一様離散拡散モデルに対する安定かつ効率的なグループ相対ポリシー最適化
- Authors: Jiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang,
- Abstract要約: RL と UDM を統合した最初のフレームワークである UDM-GRPO を提案する。
提案手法は2つの重要な知見により導かれる: (i) 最終クリーンサンプルをより正確で安定した最適化信号として扱い、 (ii) 拡散前処理による軌道の再構築により、予測経路と事前学習分布との整合性が向上する。
- 参考スコア(独自算出の注目度): 35.98585605462306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively applying GRPO to UDM leads to training instability and marginal performance gains. To address this, we propose UDM-GRPO, the first framework to integrate UDM with RL. Our method is guided by two key insights: (i) treating the final clean sample as the action provides more accurate and stable optimization signals; and (ii) reconstructing trajectories via the diffusion forward process better aligns probability paths with the pretraining distribution. Additionally, we introduce two strategies, Reduced-Step and CFG-Free, to further improve training efficiency. UDM-GRPO significantly improves base model performance across multiple T2I tasks. Notably, GenEval accuracy improves from $69\%$ to $96\%$ and PickScore increases from $20.46$ to $23.81$, achieving state-of-the-art performance in both continuous and discrete settings. On the OCR benchmark, accuracy rises from $8\%$ to $57\%$, further validating the generalization ability of our method. Code is available at https://github.com/Yovecent/UDM-GRPO.
- Abstract(参考訳): 離散離散拡散モデル (UDM) は離散生成モデルのための将来的なパラダイムとして最近登場したが、強化学習との統合は未解明のままである。
GRPOをUDMに適用することで,トレーニング不安定性と限界性能向上につながることが観察された。
そこで本研究では,UDMとRLを統合する最初のフレームワークであるUDM-GRPOを提案する。
私たちの手法は2つの重要な洞察によって導かれる。
一 最終清浄試料をより正確で安定した最適化信号として処理すること。
(II)拡散前処理による軌道の再構築により,確率経路と事前学習分布との整合性が向上する。
さらに、トレーニング効率をさらに向上させるために、Reduceed-StepとCFG-Freeという2つの戦略を導入する。
UDM-GRPOは、複数のT2Iタスクのベースモデル性能を大幅に改善する。
特に、GenEvalの精度は69.%から96.%に改善され、PickScoreは20.46ドルから23.81ドルに向上し、連続的な設定と離散的な設定の両方で最先端のパフォーマンスを達成する。
OCR ベンチマークでは,精度が 8 % から 57 % に上昇し,さらに本手法の一般化能力を検証した。
コードはhttps://github.com/Yovecent/UDM-GRPO.comで入手できる。
関連論文リスト
- $R_\text{dm}$: Re-conceptualizing Distribution Matching as a Reward for Diffusion Distillation [9.105357939499683]
拡散モデルは最先端の生成性能を達成するが、その遅くて反復的なサンプリングプロセスによってボトルネックとなる。
最近のアプローチでは、強化学習(RL)を統合して、この天井を壊そうとしている。
本稿では,分散マッチングを報酬として再概念化し,$R_textdm$と表記する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-30T14:01:31Z) - Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models [40.82263997290613]
離散拡散においてスケーラブルなマルチモーダル強化学習を実現するための,最初の実行可能なアプローチであるMaskGRPOを紹介する。
MaskGRPOはより安定的で効率的なアップデートをもたらし、推論性能が向上し、世代品質が向上する。
論文 参考訳(メタデータ) (2025-10-03T10:36:24Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。