論文の概要: Smart-GRPO: Smartly Sampling Noise for Efficient RL of Flow-Matching Models
- arxiv url: http://arxiv.org/abs/2510.02654v1
- Date: Fri, 03 Oct 2025 01:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.224675
- Title: Smart-GRPO: Smartly Sampling Noise for Efficient RL of Flow-Matching Models
- Title(参考訳): Smart-GRPO:フローマッチングモデルの効率的なRLのためのスマートサンプリングノイズ
- Authors: Benjamin Yu, Jackie Liu, Justin Cui,
- Abstract要約: フローマッチングモデルは、画像の品質と人間のアライメントを改善するための重要なツールである強化学習には適していない。
フローマッチングモデルにおける強化学習のためのノイズ摂動を最適化する最初の方法であるSmart-GRPOを提案する。
この結果から,フローマッチングフレームワークにおける強化学習への実践的な道筋が示唆され,効率的なトレーニングと人的協調生成のギャップを埋めることができた。
- 参考スコア(独自算出の注目度): 3.504915653613661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in flow-matching have enabled high-quality text-to-image generation. However, the deterministic nature of flow-matching models makes them poorly suited for reinforcement learning, a key tool for improving image quality and human alignment. Prior work has introduced stochasticity by perturbing latents with random noise, but such perturbations are inefficient and unstable. We propose Smart-GRPO, the first method to optimize noise perturbations for reinforcement learning in flow-matching models. Smart-GRPO employs an iterative search strategy that decodes candidate perturbations, evaluates them with a reward function, and refines the noise distribution toward higher-reward regions. Experiments demonstrate that Smart-GRPO improves both reward optimization and visual quality compared to baseline methods. Our results suggest a practical path toward reinforcement learning in flow-matching frameworks, bridging the gap between efficient training and human-aligned generation.
- Abstract(参考訳): 近年のフローマッチングは高品質なテキスト・ツー・イメージ生成を可能にしている。
しかし、フローマッチングモデルの決定論的性質は、画像品質と人間のアライメントを改善するための重要なツールである強化学習に不適である。
従来の研究は、ランダムノイズで潜伏音を摂動することで確率性を導入してきたが、そのような摂動は非効率で不安定である。
フローマッチングモデルにおける強化学習のためのノイズ摂動を最適化する最初の方法であるSmart-GRPOを提案する。
Smart-GRPOは、候補摂動を復号し、報奨関数で評価し、高次領域への雑音分布を洗練する反復探索戦略を採用している。
実験により、Smart-GRPOは、ベースライン法と比較して報酬最適化と視覚的品質の両方を改善していることが示された。
この結果から,フローマッチングフレームワークにおける強化学習への実践的な道筋が示唆され,効率的なトレーニングと人的協調生成のギャップを埋めることができた。
関連論文リスト
- $\text{G}^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラ-GRPO(textG2$RPO)フレームワークを提案する。
また、複数の拡散スケールで計算された利点を集約し、サンプリング方向をより包括的かつ堅牢に評価するマルチグラニュラリティ・アドバンテージ統合モジュールも導入する。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Coefficients-Preserving Sampling for Reinforcement Learning with Flow Matching [6.238027696245818]
Reinforcement Learning (RL) は拡散およびフローマッチングモデルにおける画像生成と映像生成を改善する強力な手法として登場した。
SDEに基づくサンプリングは、生成された画像に顕著なノイズアーティファクトを導入します。
提案手法であるCoefficients-Preserving Sampling (CPS)は,これらのノイズアーティファクトを除去する。
論文 参考訳(メタデータ) (2025-09-07T07:25:00Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。
我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。
我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文 参考訳(メタデータ) (2025-03-01T15:43:39Z) - Regret-Aware Black-Box Optimization with Natural Gradients,
Trust-Regions and Entropy Control [17.430247457941284]
CMA-ESのような最も成功したブラックボックスは、新しい検索分布を得るために個々のサンプルのランキングを使用する。
これらのアルゴリズムは、通常、検索分布の質の高い平均推定値を生成するが、これらのアルゴリズムは後悔を知らないため、生成したサンプルは品質が劣る可能性がある。
対照的に、Relative Entropy Search (MORE)アルゴリズムは、ランキングを使わずに、期待されるフィットネス機能を直接最適化する。
論文 参考訳(メタデータ) (2022-05-24T16:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。