論文の概要: BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.06040v5
- Date: Mon, 29 Sep 2025 13:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.560542
- Title: BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models
- Title(参考訳): BranchGRPO: 拡散モデルにおける構造分岐を伴う安定かつ効率的なGRPO
- Authors: Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang,
- Abstract要約: BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
- 参考スコア(独自算出の注目度): 57.304411396229035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in aligning image and video generative models with Group Relative Policy Optimization (GRPO) has improved human preference alignment, but existing variants remain inefficient due to sequential rollouts and large numbers of sampling steps, unreliable credit assignment: sparse terminal rewards are uniformly propagated across timesteps, failing to capture the varying criticality of decisions during denoising. In this paper, we present BranchGRPO, a method that restructures the rollout process into a branching tree, where shared prefixes amortize computation and pruning removes low-value paths and redundant depths. BranchGRPO introduces three contributions: (1) a branching scheme that amortizes rollout cost through shared prefixes while preserving exploration diversity; (2) a reward fusion and depth-wise advantage estimator that transforms sparse terminal rewards into dense step-level signals; and (3) pruning strategies that cut gradient computation but leave forward rollouts and exploration unaffected. On HPDv2.1 image alignment, BranchGRPO improves alignment scores by up to \textbf{16\%} over DanceGRPO, while reducing per-iteration training time by nearly \textbf{55\%}. A hybrid variant, BranchGRPO-Mix, further accelerates training to 4.7x faster than DanceGRPO without degrading alignment. On WanX video generation, it further achieves higher Video-Align scores with sharper and temporally consistent frames compared to DanceGRPO. Codes are available at \href{https://fredreic1849.github.io/BranchGRPO-Webpage/}{BranchGRPO}.
- Abstract(参考訳): 画像およびビデオ生成モデルとGRPO(Group Relative Policy Optimization)との整合化の最近の進歩は、人間の嗜好の整合性を改善しているが、既存の変種は、連続的なロールアウトと大量のサンプリングステップ、信頼できない信用割当により、非効率のままである。
本稿では,分岐木にロールアウト処理を再構成する手法であるブランチGRPOについて述べる。この手法では,共有プレフィックスが計算とプルーニングを補正し,低値パスと冗長な深さを除去する。
ブランチGRPO では,(1) 探索多様性を維持しながら共有接頭辞によるロールアウトコストを補正する分岐スキーム,(2) スパース終末報酬を高密度ステップレベル信号に変換する報奨融合と深度優位性推定器,(3) 勾配計算を削減しながら前向きのロールアウトや探索に影響を与えないプルーニング戦略を導入している。
HPDv2.1 イメージアライメントでは、BranchGRPO は DanceGRPO 上で \textbf{16\%} までのアライメントスコアを改善し、また、設定毎のトレーニング時間をほぼ \textbf{55\%} に短縮する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
WanXビデオ生成では、DanceGRPOに比べてシャープで時間的に一貫したフレームで高画質のVoice-Alignスコアを得る。
コードは \href{https://fredreic1849.github.io/BranchGRPO-Webpage/}{BranchGRPO} で公開されている。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models [14.130608036489336]
強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルと人間の嗜好の整合に不可欠であるが、その禁止的な計算コストは、広く普及する上で大きな障壁である。
textbfTreeGRPOは,探索木としてdenoisingプロセスを再キャストすることで,トレーニング効率を劇的に向上させる新しいRLフレームワークである。
論文 参考訳(メタデータ) (2025-12-09T01:17:34Z) - Multi-GRPO: Multi-Group Advantage Estimation for Text-to-Image Generation with Tree-Based Trajectories and Multiple Rewards [18.89733659101796]
グループ相対政策最適化は、テキスト・ツー・イメージ(T2I)モデルを整列させる有望な可能性を示している。
既存のGRPOベースの手法には2つの限界がある。
マルチグループゲイン推定フレームワークである textbfMulti-GRPO を提案する。
論文 参考訳(メタデータ) (2025-11-30T05:44:35Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning [48.426139299991604]
プロセス認識型RLを実現する新しいフレームワークである textbfSPRO を提案する。
SPROはバニラGRPOより3.4倍高い訓練効率と17.5%の精度で性能が向上した。
特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2025-07-02T10:05:14Z) - RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors [54.81109375939306]
RGE-GSは、拡散に基づく生成と報酬誘導ガウス積分を相乗化する新しい拡張的再構築フレームワークである。
本稿では,復元フェーズに先立って一貫したパターンを識別・優先順位付けする報奨ネットワークを提案する。
復元過程において,シーン収束度に応じてガウス最適化の進捗を自動的に調整する学習戦略を考案した。
論文 参考訳(メタデータ) (2025-06-28T08:02:54Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。