論文の概要: TempFlow-GRPO: When Timing Matters for GRPO in Flow Models
- arxiv url: http://arxiv.org/abs/2508.04324v1
- Date: Wed, 06 Aug 2025 11:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.68924
- Title: TempFlow-GRPO: When Timing Matters for GRPO in Flow Models
- Title(参考訳): TempFlow-GRPO:フローモデルにおけるGRPOのタイミング
- Authors: Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang,
- Abstract要約: 本稿では,フローベース生成に固有の時間構造を捕捉し,活用する,原理的なGRPOフレームワークを提案する。
新しい革新は、基礎となる生成力学を尊重する時間的に認識された最適化をモデルに与える。
これらのイノベーションは、人間の好みのアライメントや標準のテキスト・ツー・イメージのベンチマークにおける最先端のパフォーマンスにつながります。
- 参考スコア(独自算出の注目度): 15.98846236574084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent flow matching models for text-to-image generation have achieved remarkable quality, yet their integration with reinforcement learning for human preference alignment remains suboptimal, hindering fine-grained reward-based optimization. We observe that the key impediment to effective GRPO training of flow models is the temporal uniformity assumption in existing approaches: sparse terminal rewards with uniform credit assignment fail to capture the varying criticality of decisions across generation timesteps, resulting in inefficient exploration and suboptimal convergence. To remedy this shortcoming, we introduce \textbf{TempFlow-GRPO} (Temporal Flow GRPO), a principled GRPO framework that captures and exploits the temporal structure inherent in flow-based generation. TempFlow-GRPO introduces two key innovations: (i) a trajectory branching mechanism that provides process rewards by concentrating stochasticity at designated branching points, enabling precise credit assignment without requiring specialized intermediate reward models; and (ii) a noise-aware weighting scheme that modulates policy optimization according to the intrinsic exploration potential of each timestep, prioritizing learning during high-impact early stages while ensuring stable refinement in later phases. These innovations endow the model with temporally-aware optimization that respects the underlying generative dynamics, leading to state-of-the-art performance in human preference alignment and standard text-to-image benchmarks.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ生成のためのフローマッチングモデルが目覚ましい品質を達成しているが,人間の嗜好アライメントのための強化学習との統合は相変わらず最適であり,微妙な報酬ベース最適化を妨げている。
我々は,フローモデルの効果的なGRPOトレーニングの鍵となる障害が,既存のアプローチにおける時間的均一性の仮定であることを示した。
この欠点を解消するために、フローベース生成に固有の時間構造を捕捉し活用する原則的GRPOフレームワークである‘textbf{TempFlow-GRPO}(Temporal Flow GRPO)を導入する。
TempFlow-GRPOは2つの重要なイノベーションを紹介します。
一 特定分岐点の確率を集中させ、特定中間報酬モデルを必要とせずに正確な信用割当を可能にする軌道分岐機構
2) 各段階の内在探索電位に応じて政策最適化を変調する騒音対応重み付け方式。
これらの革新は、人間の好みの調整や標準的なテキスト・ツー・イメージのベンチマークにおける最先端のパフォーマンスをもたらす、基礎となる生成力学を尊重する時間的に認識された最適化をモデルに与える。
関連論文リスト
- WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Federated Dynamic Modeling and Learning for Spatiotemporal Data Forecasting [0.8568432695376288]
本稿では、複雑な時間的データを予測するための高度なフェデレートラーニング(FL)フレームワークを提案し、最近の最先端モデルを改善した。
結果として生じるアーキテクチャは、様々な予測アプリケーションで複雑な時間パターンを扱う能力を大幅に改善します。
提案手法の有効性は,都市部におけるマルチモーダル交通需要予測のためのパブリックデータセットや,Origin-Destination (OD) 行列予測のためのプライベートデータセットなど,実世界の応用に関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2025-03-06T15:16:57Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [9.025671446527694]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。
本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文 参考訳(メタデータ) (2025-02-03T20:50:05Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - On The Convergence of Euler Discretization of Finite-Time Convergent Gradient Flows [4.401622714202886]
本稿では,RGF (Rescaled-gradient Flow) とSGF (Signed-gradient Flow) の2つの新しい一階最適化アルゴリズムの性能について検討する。
これらのアルゴリズムは、勾配線型関数のミニマに局所収束する非リプシッツ力学系からなる有限時間収束流の前方離散化から導かれる。
論文 参考訳(メタデータ) (2020-10-06T19:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。