論文の概要: BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.06040v1
- Date: Sun, 07 Sep 2025 12:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.829864
- Title: BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models
- Title(参考訳): BranchGRPO: 拡散モデルにおける構造分岐を伴う安定かつ効率的なGRPO
- Authors: Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang,
- Abstract要約: BranchGRPOは、SDEサンプリングプロセスを更新するブランチサンプリングポリシーを導入する新しい方法である。
共通プレフィックスをまたいで共有し、低リワードパスと冗長な深さをプルーニングすることで、ブランチGRPOは更新毎の計算コストを大幅に削減する。
画像およびビデオ優先アライメントの実験では、BranchGRPOはトレーニング時間を50%削減しながら、強いベースラインよりもアライメントスコアを16%改善している。
- 参考スコア(独自算出の注目度): 57.304411396229035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in aligning image and video generative models via GRPO have achieved remarkable gains in enhancing human preference alignment. However, these methods still face high computational costs from on-policy rollouts and excessive SDE sampling steps, as well as training instability due to sparse rewards. In this paper, we propose BranchGRPO, a novel method that introduces a branch sampling policy updating the SDE sampling process. By sharing computation across common prefixes and pruning low-reward paths and redundant depths, BranchGRPO substantially lowers the per-update compute cost while maintaining or improving exploration diversity. This work makes three main contributions: (1) a branch sampling scheme that reduces rollout and training cost; (2) a tree-based advantage estimator incorporating dense process-level rewards; and (3) pruning strategies exploiting path and depth redundancy to accelerate convergence and boost performance. Experiments on image and video preference alignment show that BranchGRPO improves alignment scores by 16% over strong baselines, while cutting training time by 50%.
- Abstract(参考訳): GRPOによる画像のアライメントとビデオ生成モデルの最近の進歩は、人間の嗜好のアライメントを高めることに顕著な成果を上げている。
しかし、これらの手法はいまだに、政治上のロールアウトと過剰なSDEサンプリングステップによる高い計算コストと、スパース報酬によるトレーニング不安定性に直面する。
本稿では,SDEサンプリングプロセスを更新するブランチサンプリングポリシーを導入する新しい手法であるブランチGRPOを提案する。
共通プレフィックス間で計算を共有し、低遅延パスと冗長な深さを刈り取ることで、BranchGRPOは探索の多様性を維持したり改善したりしながら、更新毎の計算コストを大幅に削減する。
本研究は,(1)ロールアウトとトレーニングコストを削減した分岐サンプリングスキーム,(2)高密度プロセスレベルの報酬を組み込んだツリーベースベネフィット推定器,(3)収束と性能向上のための経路と深さの冗長性を利用した刈取戦略,の3つの主要な貢献を行う。
画像およびビデオ優先アライメントの実験では、BranchGRPOはトレーニング時間を50%削減しながら、強いベースラインよりもアライメントスコアを16%改善している。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models [14.130608036489336]
強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルと人間の嗜好の整合に不可欠であるが、その禁止的な計算コストは、広く普及する上で大きな障壁である。
textbfTreeGRPOは,探索木としてdenoisingプロセスを再キャストすることで,トレーニング効率を劇的に向上させる新しいRLフレームワークである。
論文 参考訳(メタデータ) (2025-12-09T01:17:34Z) - Multi-GRPO: Multi-Group Advantage Estimation for Text-to-Image Generation with Tree-Based Trajectories and Multiple Rewards [18.89733659101796]
グループ相対政策最適化は、テキスト・ツー・イメージ(T2I)モデルを整列させる有望な可能性を示している。
既存のGRPOベースの手法には2つの限界がある。
マルチグループゲイン推定フレームワークである textbfMulti-GRPO を提案する。
論文 参考訳(メタデータ) (2025-11-30T05:44:35Z) - Lookahead Tree-Based Rollouts for Enhanced Trajectory-Level Exploration in Reinforcement Learning with Verifiable Rewards [48.321707628011005]
Lookahead Tree-Based Rollouts (LATR) は、軌道レベルの多様性を明確に促進するために設計された新しいロールアウト戦略である。
LATRはポリシー学習を平均で131%加速し、最終パス@1パフォーマンスを4.2%向上させる。
論文 参考訳(メタデータ) (2025-10-28T11:12:02Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning [48.426139299991604]
プロセス認識型RLを実現する新しいフレームワークである textbfSPRO を提案する。
SPROはバニラGRPOより3.4倍高い訓練効率と17.5%の精度で性能が向上した。
特にSPROは、GRPOのような結果管理されたRL法と比較して、工業的実装に有利な計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2025-07-02T10:05:14Z) - RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors [54.81109375939306]
RGE-GSは、拡散に基づく生成と報酬誘導ガウス積分を相乗化する新しい拡張的再構築フレームワークである。
本稿では,復元フェーズに先立って一貫したパターンを識別・優先順位付けする報奨ネットワークを提案する。
復元過程において,シーン収束度に応じてガウス最適化の進捗を自動的に調整する学習戦略を考案した。
論文 参考訳(メタデータ) (2025-06-28T08:02:54Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - Gradient Coding with Dynamic Clustering for Straggler Mitigation [57.9123881133818]
GC-DCは、前回のイテレーションにおけるストラグラーの振る舞いに基づいて、各クラスタ内のストラグラーワーカ数を規制する。
本稿では,GC-DCが従来のGC方式に比べて通信負荷を増大させることなく,各イテレーションの平均完了時間(各イテレーション)を大幅に改善できることを数値的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。