論文の概要: Multi-GRPO: Multi-Group Advantage Estimation for Text-to-Image Generation with Tree-Based Trajectories and Multiple Rewards
- arxiv url: http://arxiv.org/abs/2512.00743v1
- Date: Sun, 30 Nov 2025 05:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.392721
- Title: Multi-GRPO: Multi-Group Advantage Estimation for Text-to-Image Generation with Tree-Based Trajectories and Multiple Rewards
- Title(参考訳): Multi-GRPO:木系トラジェクトリと複数リワードを用いたテキスト・ツー・イメージ生成のためのマルチグループアドバンテージ推定
- Authors: Qiang Lyu, Zicong Chen, Chongxiao Wang, Haolin Shi, Shibo Gao, Ran Piao, Youwei Zeng, Jianlou Si, Fei Ding, Jing Li, Chun Pong Lau, Weiqiang Wang,
- Abstract要約: グループ相対政策最適化は、テキスト・ツー・イメージ(T2I)モデルを整列させる有望な可能性を示している。
既存のGRPOベースの手法には2つの限界がある。
マルチグループゲイン推定フレームワークである textbfMulti-GRPO を提案する。
- 参考スコア(独自算出の注目度): 18.89733659101796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Group Relative Policy Optimization (GRPO) has shown promising potential for aligning text-to-image (T2I) models, yet existing GRPO-based methods suffer from two critical limitations. (1) \textit{Shared credit assignment}: trajectory-level advantages derived from group-normalized sparse terminal rewards are uniformly applied across timesteps, failing to accurately estimate the potential of early denoising steps with vast exploration spaces. (2) \textit{Reward-mixing}: predefined weights for combining multi-objective rewards (e.g., text accuracy, visual quality, text color)--which have mismatched scales and variances--lead to unstable gradients and conflicting updates. To address these issues, we propose \textbf{Multi-GRPO}, a multi-group advantage estimation framework with two orthogonal grouping mechanisms. For better credit assignment, we introduce tree-based trajectories inspired by Monte Carlo Tree Search: branching trajectories at selected early denoising steps naturally forms \emph{temporal groups}, enabling accurate advantage estimation for early steps via descendant leaves while amortizing computation through shared prefixes. For multi-objective optimization, we introduce \emph{reward-based grouping} to compute advantages for each reward function \textit{independently} before aggregation, disentangling conflicting signals. To facilitate evaluation of multiple objective alignment, we curate \textit{OCR-Color-10}, a visual text rendering dataset with explicit color constraints. Across the single-reward \textit{PickScore-25k} and multi-objective \textit{OCR-Color-10} benchmarks, Multi-GRPO achieves superior stability and alignment performance, effectively balancing conflicting objectives. Code will be publicly available at \href{https://github.com/fikry102/Multi-GRPO}{https://github.com/fikry102/Multi-GRPO}.
- Abstract(参考訳): 近年,グループ相対政策最適化 (GRPO) はテキスト・ツー・イメージ(T2I)モデルを整列させる有望な可能性を示しているが,既存のGRPOベースの手法には2つの限界がある。
1) \textit{Shared credit assignment}: グループ正規化スパース端末報酬から導かれる軌道レベルの利点をタイムステップに一様に適用し, 探索空間の広い早期段階の可能性を正確に推定することができない。
2) \textit{Reward-mixing}: 不安定な勾配と矛盾する更新を伴って、スケールと分散をミスマッチさせた多目的報酬(例えば、テキスト精度、視覚的品質、テキスト色)を組み合わせるための事前定義された重み付け。
これらの問題に対処するために,2つの直交グルーピング機構を持つ多群優位推定フレームワークである \textbf{Multi-GRPO} を提案する。
モンテカルロ木探索(Monte Carlo Tree Search: branching trajectories at selected early denoising steps natural form \emph{temporal groups})は、木をベースとした木軌道を導入し、共有プレフィックスによる計算を保ちながら、子孫葉による初期ステップの正確な利点推定を可能にする。
多目的最適化のために、アグリゲーションの前に各報酬関数 \textit{independently} の利点を計算し、競合する信号を切り離すために \emph{reward-based grouping} を導入する。
多目的アライメントの評価を容易にするために、明示的な色制約を持つビジュアルテキストレンダリングデータセットである \textit{OCR-Color-10} をキュレートする。
Single-reward \textit{PickScore-25k} と multi-objective \textit{OCR-Color-10} ベンチマークでは、Multi-GRPO は優れた安定性とアライメント性能を実現し、競合する目的を効果的にバランスさせる。
コードは \href{https://github.com/fikry102/Multi-GRPO}{https://github.com/fikry102/Multi-GRPO} で公開されている。
関連論文リスト
- BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z) - TreeRPO: Tree Relative Policy Optimization [65.51935468270916]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。