論文の概要: TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.08153v1
- Date: Tue, 09 Dec 2025 01:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.777055
- Title: TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models
- Title(参考訳): TreeGRPO: オンラインRLアフタートレーニングのためのツリーアドバンテージGRPO
- Authors: Zheng Ding, Weirui Ye,
- Abstract要約: 強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルと人間の嗜好の整合に不可欠であるが、その禁止的な計算コストは、広く普及する上で大きな障壁である。
textbfTreeGRPOは,探索木としてdenoisingプロセスを再キャストすることで,トレーニング効率を劇的に向上させる新しいRLフレームワークである。
- 参考スコア(独自算出の注目度): 14.130608036489336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) post-training is crucial for aligning generative models with human preferences, but its prohibitive computational cost remains a major barrier to widespread adoption. We introduce \textbf{TreeGRPO}, a novel RL framework that dramatically improves training efficiency by recasting the denoising process as a search tree. From shared initial noise samples, TreeGRPO strategically branches to generate multiple candidate trajectories while efficiently reusing their common prefixes. This tree-structured approach delivers three key advantages: (1) \emph{High sample efficiency}, achieving better performance under same training samples (2) \emph{Fine-grained credit assignment} via reward backpropagation that computes step-specific advantages, overcoming the uniform credit assignment limitation of trajectory-based methods, and (3) \emph{Amortized computation} where multi-child branching enables multiple policy updates per forward pass. Extensive experiments on both diffusion and flow-based models demonstrate that TreeGRPO achieves \textbf{2.4$\times$ faster training} while establishing a superior Pareto frontier in the efficiency-reward trade-off space. Our method consistently outperforms GRPO baselines across multiple benchmarks and reward models, providing a scalable and effective pathway for RL-based visual generative model alignment. The project website is available at treegrpo.github.io.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルと人間の嗜好を整合させる上で重要であるが、その禁止的な計算コストは、広く普及する上で大きな障壁である。
本稿では,新しいRLフレームワークである‘textbf{TreeGRPO} を紹介する。
共有された初期ノイズサンプルから、TreeGRPOは戦略的に分岐し、共通のプレフィックスを効率的に再利用しながら複数の候補軌跡を生成する。
この木構造アプローチは,(1) \emph{High sample efficiency} と(2) \emph{Fine-grand credit assignment} と,(2) ステップ固有の利点を計算した報奨バックプロパゲーション,(3) トラジェクトリベースのメソッドの統一的なクレジット割り当て制限を克服する,(3) 複数子分岐によって前方パス毎に複数のポリシー更新が可能になる,という3つの重要な利点を提供する。
拡散モデルとフローベースモデルの両方に関する広範囲な実験により、TreeGRPOは、効率-逆トレードオフ空間において優れたパレートフロンティアを確立しながら、より高速なトレーニングを達成することを示した。
提案手法は,複数のベンチマークおよび報酬モデルにおいてGRPOベースラインを一貫して上回り,RLに基づく視覚生成モデルアライメントのためのスケーラブルで効果的な経路を提供する。
プロジェクトのWebサイトはtreegrpo.github.ioで公開されている。
関連論文リスト
- Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeRPO: Tree Relative Policy Optimization [65.51935468270916]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。