論文の概要: Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models
- arxiv url: http://arxiv.org/abs/2511.16955v1
- Date: Fri, 21 Nov 2025 05:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.891991
- Title: Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models
- Title(参考訳): 隣のGRPO: 対照的なODEポリシー最適化はフローモデルに適合する
- Authors: Dailan He, Guanlin Feng, Xingtong Ge, Yazhe Niu, Yi Zhang, Bingqi Ma, Guanglu Song, Yu Liu, Hongsheng Li,
- Abstract要約: グループ相対政策最適化は、画像とビデオ生成モデルと人間の嗜好の整合性を示す。
現代のフローマッチングモデルに適用することは、決定論的サンプリングパラダイムのために難しい。
SDE の必要性を完全に回避する新しいアライメントアルゴリズム Neighbor GRPO を提案する。
- 参考スコア(独自算出の注目度): 48.3520220561093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has shown promise in aligning image and video generative models with human preferences. However, applying it to modern flow matching models is challenging because of its deterministic sampling paradigm. Current methods address this issue by converting Ordinary Differential Equations (ODEs) to Stochastic Differential Equations (SDEs), which introduce stochasticity. However, this SDE-based GRPO suffers from issues of inefficient credit assignment and incompatibility with high-order solvers for fewer-step sampling. In this paper, we first reinterpret existing SDE-based GRPO methods from a distance optimization perspective, revealing their underlying mechanism as a form of contrastive learning. Based on this insight, we propose Neighbor GRPO, a novel alignment algorithm that completely bypasses the need for SDEs. Neighbor GRPO generates a diverse set of candidate trajectories by perturbing the initial noise conditions of the ODE and optimizes the model using a softmax distance-based surrogate leaping policy. We establish a theoretical connection between this distance-based objective and policy gradient optimization, rigorously integrating our approach into the GRPO framework. Our method fully preserves the advantages of deterministic ODE sampling, including efficiency and compatibility with high-order solvers. We further introduce symmetric anchor sampling for computational efficiency and group-wise quasi-norm reweighting to address reward flattening. Extensive experiments demonstrate that Neighbor GRPO significantly outperforms SDE-based counterparts in terms of training cost, convergence speed, and generation quality.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、画像生成モデルと映像生成モデルを人間の好みに合わせることを約束している。
しかし, その決定論的サンプリングパラダイムにより, 現代の流れマッチングモデルに適用することは困難である。
現在の手法では、正規微分方程式(ODE)を確率性を導入する確率微分方程式(SDE)に変換することでこの問題に対処している。
しかし、このSDEベースのGRPOは、より少ないステップサンプリングのための高次解法と非効率なクレジット割り当てと非互換性の問題に悩まされている。
本稿では,従来のSDEに基づくGRPO手法を距離最適化の観点から解釈し,その基盤となるメカニズムをコントラスト学習の一形態として明らかにする。
この知見に基づいて,SDE の必要性を完全に回避する新しいアライメントアルゴリズム Neighbor GRPO を提案する。
隣接するGRPOは、ODEの初期ノイズ条件を摂動させ、ソフトマックス距離に基づくサロゲート跳躍ポリシーを用いてモデルを最適化することにより、様々な候補軌道を生成する。
我々は,この距離ベース目標と政策勾配最適化の理論的関係を確立し,我々のアプローチをGRPOフレームワークに統合する。
提案手法は,高次解法との整合性を含む決定論的ODEサンプリングの利点を完全に保存する。
さらに、計算効率とグループワイド準ノルム重み付けのための対称アンカーサンプリングを導入し、報酬平坦化に対処する。
大規模な実験により、Nighbor GRPOは、トレーニングコスト、収束速度、生成品質において、SDEベースのものよりも大幅に優れていた。
関連論文リスト
- Reinforcing Diffusion Models by Direct Group Preference Optimization [19.195805549362074]
グループ選好最適化(DGPO)は、グループ内のサンプルの相対情報を利用するグループレベルの選好から直接学習する。
その結果、DGPOは既存の最先端手法の約20倍の速度でトレーニングを行い、ドメイン内および外部メトリクスの報酬よりも優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-10-09T16:40:43Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Learning to Solve Optimization Problems Constrained with Partial Differential Equations [45.143085119200265]
部分方程式 (PDE) に制約のある最適化は、多くの科学的・工学的な領域で発生する。
本稿では,動的予測器と最適化サロゲートを統合した学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T10:28:14Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。