論文の概要: MAR-GRPO: Stabilized GRPO for AR-diffusion Hybrid Image Generation
- arxiv url: http://arxiv.org/abs/2604.06966v1
- Date: Wed, 08 Apr 2026 11:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.497192
- Title: MAR-GRPO: Stabilized GRPO for AR-diffusion Hybrid Image Generation
- Title(参考訳): MAR-GRPO:AR拡散ハイブリッド画像生成のための安定化GRPO
- Authors: Xiaoxiao Ma, Jiachen Lei, Tianfei Ren, Jie Huang, Siming Fu, Aiming Hao, Jiahong Wu, Xiangxiang Chu, Feng Zhao,
- Abstract要約: 強化学習(RL)は自己回帰(AR)と拡散モデルにうまく応用されている。
RLをハイブリッドAR拡散フレームワークに拡張することは、インターリーブ推論とノイズの多いログ確率推定のために依然として難しい。
本研究では,マスク付き自己回帰モデル(MAR)について検討し,拡散ヘッドが運動学のトレーニングにおいて重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 24.618644100413018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has been successfully applied to autoregressive (AR) and diffusion models. However, extending RL to hybrid AR-diffusion frameworks remains challenging due to interleaved inference and noisy log-probability estimation. In this work, we study masked autoregressive models (MAR) and show that the diffusion head plays a critical role in training dynamics, often introducing noisy gradients that lead to instability and early performance saturation. To address this issue, we propose a stabilized RL framework for MAR. We introduce multi-trajectory expectation (MTE), which estimates the optimization direction by averaging over multiple diffusion trajectories, thereby reducing diffusion-induced gradient noise. To avoid over-smoothing, we further estimate token-wise uncertainty from multiple trajectories and apply multi-trajectory optimization only to the top-k% uncertain tokens. In addition, we introduce a consistency-aware token selection strategy that filters out AR tokens that are less aligned with the final generated content. Extensive experiments across multiple benchmarks demonstrate that our method consistently improves visual quality, training stability, and spatial structure understanding over baseline GRPO and pre-RL models. Code is available at: https://github.com/AMAP-ML/mar-grpo.
- Abstract(参考訳): 強化学習(RL)は自己回帰(AR)と拡散モデルにうまく応用されている。
しかし、RLをハイブリッドAR拡散フレームワークに拡張することは、インターリーブ推論とノイズの多い対数確率推定のために依然として困難である。
本研究では,マスク付き自己回帰モデル (MAR) について検討し,拡散ヘッドが運動学のトレーニングにおいて重要な役割を担っていることを示す。
この問題に対処するため、我々はMARのための安定化されたRLフレームワークを提案する。
我々は,複数の拡散軌道を平均化することで最適化方向を推定し,拡散誘起勾配雑音を低減するマルチトラジェクトリ予測(MTE)を導入する。
過度な平滑化を避けるため、複数の軌道からトークン単位の不確実性を推定し、複数軌道最適化をトップk%の不確実性トークンにのみ適用する。
さらに、最終的な生成されたコンテンツと一致しないARトークンをフィルタリングする、一貫性を意識したトークン選択戦略を導入する。
複数のベンチマークによる大規模な実験により,本手法はベースラインGRPOおよびプレRLモデル上での視覚的品質,訓練安定性,空間構造理解を一貫して改善することが示された。
コードは、https://github.com/AMAP-ML/mar-grpo.comで入手できる。
関連論文リスト
- Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward [93.04811239892852]
強化学習(Reinforcement Learning, RL)は近年, 拡散モデルに組み入れられている。
本稿では,拡散型修復モデルにRLを効果的に組み込む方法について検討する。
論文 参考訳(メタデータ) (2025-11-03T14:57:57Z) - SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - EADReg: Probabilistic Correspondence Generation with Efficient Autoregressive Diffusion Model for Outdoor Point Cloud Registration [22.084204833166982]
我々は,LiDAR点雲の効率的かつロバストな登録のためのEADRegという新しいフレームワークを提案する。
我々は、二方向ガウス混合モデル(BGMM)を用いて、外接点を拒絶し、純化された点雲対を得る。
微細な段階では,拡散型PCRを自己回帰プロセスとして扱い,ロバストな点対応を生成する。
論文 参考訳(メタデータ) (2024-11-22T13:03:54Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。