論文の概要: SuperFlow: Training Flow Matching Models with RL on the Fly
- arxiv url: http://arxiv.org/abs/2512.17951v1
- Date: Wed, 17 Dec 2025 02:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.116355
- Title: SuperFlow: Training Flow Matching Models with RL on the Fly
- Title(参考訳): SuperFlow: 飛行中のRLによるフローマッチングモデルのトレーニング
- Authors: Kaijie Chen, Zhiyang Xu, Ying Shen, Zihao Lin, Yuguang Yao, Lifu Huang,
- Abstract要約: SuperFlowはフローベースモデルのためのRLトレーニングフレームワークで、分散対応サンプリングでグループサイズを調整する。
当初のトレーニングステップの5.4%から56.3%しか使用せず、有望なパフォーマンスを達成した。
アーキテクチャの変更なしにトレーニング時間を5.2%から16.7%に短縮する。
- 参考スコア(独自算出の注目度): 40.46209466164144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in flow-based generative models and reinforcement learning (RL) has improved text-image alignment and visual quality. However, current RL training for flow models still has two main problems: (i) GRPO-style fixed per-prompt group sizes ignore variation in sampling importance across prompts, which leads to inefficient sampling and slower training; and (ii) trajectory-level advantages are reused as per-step estimates, which biases credit assignment along the flow. We propose SuperFlow, an RL training framework for flow-based models that adjusts group sizes with variance-aware sampling and computes step-level advantages in a way that is consistent with continuous-time flow dynamics. Empirically, SuperFlow reaches promising performance while using only 5.4% to 56.3% of the original training steps and reduces training time by 5.2% to 16.7% without any architectural changes. On standard text-to-image (T2I) tasks, including text rendering, compositional image generation, and human preference alignment, SuperFlow improves over SD3.5-M by 4.6% to 47.2%, and over Flow-GRPO by 1.7% to 16.0%.
- Abstract(参考訳): フローベース生成モデルと強化学習(RL)の最近の進歩は、テキスト画像のアライメントと視覚的品質を改善した。
しかし、フローモデルに対する現在のRLトレーニングには2つの大きな問題がある。
(i)GRPO型固定型グループサイズは、プロンプト間のサンプリング重要度の変化を無視し、非効率なサンプリングと遅いトレーニングにつながる。
(II)軌道レベルの利点はステップごとの見積もりとして再利用され、フローに沿ったクレジット割り当てに偏りが生じる。
フローベースモデルのためのRLトレーニングフレームワークであるSuperFlowを提案する。これは分散型サンプリングでグループサイズを調整し、連続時間フローのダイナミックスと整合した方法でステップレベルのアドバンテージを計算する。
経験的に、SuperFlowは、当初のトレーニングステップの5.4%から56.3%しか使用せず、アーキテクチャの変更なしにトレーニング時間を5.2%から16.7%削減している。
テキストレンダリング、合成画像生成、人間の嗜好アライメントを含むT2Iタスクでは、SuperFlowはSD3.5-Mを4.6%から47.2%改善し、Flow-GRPOを1.7%から16.0%上回る。
関連論文リスト
- PromptRL: Prompt Matters in RL for Flow-Based Image Generation [44.81148439118129]
本稿では,言語モデル(LM)をフローベース強化学習ループ内で直接訓練可能な即時改善エージェントとして組み込んだフレームワークであるPromptRLを提案する。
PromptRLは、GenEvalで0.97、OCRで0.98、PickScoreで24.05、複数のベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-01T18:31:06Z) - Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories [14.36205662558203]
Rectified MeanFlowは、単一のリフローステップのみを使用して、修正された軌道に沿った平均速度場をモデル化するフレームワークである。
64、256、および512の解像度でのImageNetの実験では、Re-MeanFlowは、サンプルの品質とトレーニング効率の両方で、一段階の蒸留法とRectified Flow法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-28T16:50:08Z) - Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling [68.76215229126886]
Decoupled MeanFlowは、フローモデルをアーキテクチャ変更なしにフローマップモデルに変換するシンプルなデコード戦略である。
提案手法では, 拡散変圧器の最終ブロックを後続の時間ステップに設定し, 事前学習した流れモデルを直接フローマップとして再利用する。
ImageNet 256x256 と 512x512 では、われわれのモデルはそれぞれ2.16 と2.12 の1ステップ FID に達し、先行技術よりも大きなマージンで上回っている。
論文 参考訳(メタデータ) (2025-10-28T14:43:48Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning [7.452631636467998]
ReinFlowは、継続的ロボット制御のためのオンライン強化学習フレームワークである。
学習可能なノイズをフローポリシーの決定論的パスに注入し、フローを離散時間マルコフプロセスに変換する。
代表的な移動と操作タスクでReinFlowをベンチマークします。
論文 参考訳(メタデータ) (2025-05-28T08:17:16Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。
機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。
我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文 参考訳(メタデータ) (2021-11-26T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。