論文の概要: BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.06040v2
- Date: Tue, 09 Sep 2025 13:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.832633
- Title: BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models
- Title(参考訳): BranchGRPO: 拡散モデルにおける構造分岐を伴う安定かつ効率的なGRPO
- Authors: Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang,
- Abstract要約: BranchGRPOは、SDEサンプリングプロセスを更新するブランチサンプリングポリシーを導入する新しい方法である。
共通プレフィックスをまたいで共有し、低リワードパスと冗長な深さをプルーニングすることで、ブランチGRPOは更新毎の計算コストを大幅に削減する。
画像およびビデオ優先アライメントの実験では、BranchGRPOはトレーニング時間を50%削減しながら、強いベースラインよりもアライメントスコアを16%改善している。
- 参考スコア(独自算出の注目度): 57.304411396229035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in aligning image and video generative models via GRPO have achieved remarkable gains in enhancing human preference alignment. However, these methods still face high computational costs from on-policy rollouts and excessive SDE sampling steps, as well as training instability due to sparse rewards. In this paper, we propose BranchGRPO, a novel method that introduces a branch sampling policy updating the SDE sampling process. By sharing computation across common prefixes and pruning low-reward paths and redundant depths, BranchGRPO substantially lowers the per-update compute cost while maintaining or improving exploration diversity. This work makes three main contributions: (1) a branch sampling scheme that reduces rollout and training cost; (2) a tree-based advantage estimator incorporating dense process-level rewards; and (3) pruning strategies exploiting path and depth redundancy to accelerate convergence and boost performance. Experiments on image and video preference alignment show that BranchGRPO improves alignment scores by 16% over strong baselines, while cutting training time by 50%.
- Abstract(参考訳): GRPOによる画像のアライメントとビデオ生成モデルの最近の進歩は、人間の嗜好のアライメントを高めることに顕著な成果を上げている。
しかし、これらの手法はいまだに、政治上のロールアウトと過剰なSDEサンプリングステップによる高い計算コストと、スパース報酬によるトレーニング不安定性に直面する。
本稿では,SDEサンプリングプロセスを更新するブランチサンプリングポリシーを導入する新しい手法であるブランチGRPOを提案する。
共通プレフィックス間で計算を共有し、低遅延パスと冗長な深さを刈り取ることで、BranchGRPOは探索の多様性を維持したり改善したりしながら、更新毎の計算コストを大幅に削減する。
本研究は,(1)ロールアウトとトレーニングコストを削減した分岐サンプリングスキーム,(2)高密度プロセスレベルの報酬を組み込んだツリーベースベネフィット推定器,(3)収束と性能向上のための経路と深さの冗長性を利用した刈取戦略,の3つの主要な貢献を行う。
画像およびビデオ優先アライメントの実験では、BranchGRPOはトレーニング時間を50%削減しながら、強いベースラインよりもアライメントスコアを16%改善している。
関連論文リスト
- TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning [48.426139299991604]
プロセス認識型RLを実現する新しいフレームワークである textbfSPRO を提案する。
SPROはバニラGRPOより3.4倍高い訓練効率と17.5%の精度で性能が向上した。
特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2025-07-02T10:05:14Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。