論文の概要: Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model
- arxiv url: http://arxiv.org/abs/2512.22288v1
- Date: Thu, 25 Dec 2025 12:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.962881
- Title: Co-GRPO: Co-Optimized Group Relative Policy Optimization for Masked Diffusion Model
- Title(参考訳): Co-GRPO:Masked Diffusion Modelのための協調最適化グループ相対ポリシー最適化
- Authors: Renping Zhou, Zanlin Ni, Tianyi Chen, Zeyu Liu, Yang Yue, Yulin Wang, Yuxuan Wang, Jingshu Liu, Gao Huang,
- Abstract要約: Masked Diffusion Models (MDMs) は、視覚、言語、モーダル・ジェネレーションにまたがる有望な可能性を示している。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
- 参考スコア(独自算出の注目度): 74.99242687133408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Masked Diffusion Models (MDMs) have shown promising potential across vision, language, and cross-modal generation. However, a notable discrepancy exists between their training and inference procedures. In particular, MDM inference is a multi-step, iterative process governed not only by the model itself but also by various schedules that dictate the token-decoding trajectory (e.g., how many tokens to decode at each step). In contrast, MDMs are typically trained using a simplified, single-step BERT-style objective that masks a subset of tokens and predicts all of them simultaneously. This step-level simplification fundamentally disconnects the training paradigm from the trajectory-level nature of inference, leaving the inference schedules never optimized during training. In this paper, we introduce Co-GRPO, which reformulates MDM generation as a unified Markov Decision Process (MDP) that jointly incorporates both the model and the inference schedule. By applying Group Relative Policy Optimization at the trajectory level, Co-GRPO cooperatively optimizes model parameters and schedule parameters under a shared reward, without requiring costly backpropagation through the multi-step generation process. This holistic optimization aligns training with inference more thoroughly and substantially improves generation quality. Empirical results across four benchmarks-ImageReward, HPS, GenEval, and DPG-Bench-demonstrate the effectiveness of our approach. For more details, please refer to our project page: https://co-grpo.github.io/ .
- Abstract(参考訳): 最近、Masked Diffusion Models (MDMs) は、視覚、言語、モーダル間における有望なポテンシャルを示している。
しかし、トレーニングと推論の手順の間には顕著な相違がある。
特に、MDM推論は、モデル自体だけでなく、トークン・デコード・トラジェクトリ(例えば、各ステップでデコードするトークンの数)を規定する様々なスケジュールによっても支配される、多段階の反復的プロセスである。
対照的に、MDMは通常、トークンのサブセットを隠蔽し、それら全てを同時に予測する、単純化された単一ステップのBERTスタイルの目的を使って訓練される。
このステップレベルの単純化は、推論の軌道レベルの性質からトレーニングパラダイムを根本的に切り離し、トレーニング中に最適化されない推論スケジュールを残します。
本稿では,MDM生成をMDP(Markov Decision Process)として再構成し,モデルと推論スケジュールを併用するCo-GRPOを提案する。
軌道レベルでグループ相対政策最適化を適用することで、Co-GRPOはモデルパラメータとスケジュールパラメータを協調的に共有報酬の下で最適化する。
この全体的な最適化は、トレーニングと推論をより徹底的に調整し、生成品質を大幅に改善する。
ImageReward, HPS, GenEval, DPG-Bench-demonstating the effective of our approach。
詳細はプロジェクトのページを参照してください。
関連論文リスト
- Masked Diffusion Models are Secretly Learned-Order Autoregressive Models [21.17429712617749]
Masked Diffusion Modelsは、トレーニング中にデコード順序を識別し、最適化できることを示す。
これらの命令に対してMDMの目的が正確に重み付けされた自己回帰的損失に分解されることを証明する。
論文 参考訳(メタデータ) (2025-11-24T14:17:56Z) - Multi-Aspect Cross-modal Quantization for Generative Recommendation [27.92632297542123]
生成レコメンデーション(MACRec)のための多視点クロスモーダル量子化を提案する。
まず、ID学習過程において、競合率を効果的に低減するクロスモーダル量子化を導入する。
また、暗黙のアライメントや明示的なアライメントを含むマルチアスペクトのクロスモーダルアライメントも組み込んでいます。
論文 参考訳(メタデータ) (2025-11-19T04:55:14Z) - Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models [40.82263997290613]
離散拡散においてスケーラブルなマルチモーダル強化学習を実現するための,最初の実行可能なアプローチであるMaskGRPOを紹介する。
MaskGRPOはより安定的で効率的なアップデートをもたらし、推論性能が向上し、世代品質が向上する。
論文 参考訳(メタデータ) (2025-10-03T10:36:24Z) - MDPO: Overcoming the Training-Inference Divide of Masked Diffusion Language Models [28.79185891706149]
拡散言語モデルは、トレーニングと推論の主な相違に悩まされる。
本稿では,マルコフ特性拡散を利用するためのMasked Diffusion Policy Optimization (MDPO)を提案する。
本研究は,MDLMの事前学習と推測の相違を調査するための大きな可能性を見出した。
論文 参考訳(メタデータ) (2025-08-18T17:58:13Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。