論文の概要: Know Your Step: Faster and Better Alignment for Flow Matching Models via Step-aware Advantages
- arxiv url: http://arxiv.org/abs/2602.01591v1
- Date: Mon, 02 Feb 2026 03:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.878263
- Title: Know Your Step: Faster and Better Alignment for Flow Matching Models via Step-aware Advantages
- Title(参考訳): ステップを知る - ステップ認識によるフローマッチングモデルの高速化とアライメント向上
- Authors: Zhixiong Yue, Zixuan Ni, Feiyang Ye, Jinshan Zhang, Sheng Shen, Zhenpeng Mi,
- Abstract要約: 本研究では,画像モデルに対するフローマッチングテキストを,人間の好みによく適合した効率的な数ステップ生成器にトレーニングするための新しいフレームワークを提案する。
TAFS GRPOは画像生成のステップ数で高い性能を示し、生成した画像と人間の好みとのアライメントを大幅に改善する。
- 参考スコア(独自算出の注目度): 6.470160796651034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in flow matching models, particularly with reinforcement learning (RL), have significantly enhanced human preference alignment in few step text to image generators. However, existing RL based approaches for flow matching models typically rely on numerous denoising steps, while suffering from sparse and imprecise reward signals that often lead to suboptimal alignment. To address these limitations, we propose Temperature Annealed Few step Sampling with Group Relative Policy Optimization (TAFS GRPO), a novel framework for training flow matching text to image models into efficient few step generators well aligned with human preferences. Our method iteratively injects adaptive temporal noise onto the results of one step samples. By repeatedly annealing the model's sampled outputs, it introduces stochasticity into the sampling process while preserving the semantic integrity of each generated image. Moreover, its step aware advantage integration mechanism combines the GRPO to avoid the need for the differentiable of reward function and provide dense and step specific rewards for stable policy optimization. Extensive experiments demonstrate that TAFS GRPO achieves strong performance in few step text to image generation and significantly improves the alignment of generated images with human preferences. The code and models of this work will be available to facilitate further research.
- Abstract(参考訳): 近年のフローマッチングモデル,特に強化学習(RL)の進歩により,画像生成装置へのステップテキストによる人間の嗜好の調整が大幅に向上した。
しかし、フローマッチングモデルに対する既存のRLベースのアプローチは、しばしば最適以下のアライメントに繋がるスパースと不正確な報酬信号に悩まされる一方で、多くのデノナイジングステップに依存している。
これらの制約に対処するため,グループ相対ポリシー最適化(TAFS GRPO)を用いた温度アニーリング手法を提案する。
提案手法は, 適応時間雑音を1段階のサンプルに繰り返し注入する。
モデルのサンプル出力を繰り返しアニールすることにより、各生成された画像のセマンティックな整合性を維持しながらサンプリングプロセスに確率性を導入する。
さらに、そのステップアウェア・アドバンテージ統合機構はGRPOを組み合わせることで、報酬関数の微分性の必要性を回避し、安定したポリシー最適化のための密度とステップ固有の報酬を提供する。
大規模な実験により,TAFS GRPOは少数のステップテキストから画像生成において高い性能を達成し,生成した画像と人間の好みとのアライメントを大幅に改善することが示された。
この作業のコードとモデルは、さらなる研究を促進するために利用できる。
関連論文リスト
- MaskFocus: Focusing Policy Optimization on Critical Steps for Masked Image Generation [21.160947261963088]
マスク生成モデルに対する効果的なポリシー最適化を実現する新しいRLフレームワークであるMaskFocusを提案する。
具体的には、各サンプリングステップにおける中間画像と最終生成画像との類似度を測定することにより、ステップレベルの情報ゲインを決定する。
これを活用して、最も重要で価値のあるステップを特定し、それに焦点を当てたポリシー最適化を実行します。
論文 参考訳(メタデータ) (2025-12-21T15:08:31Z) - ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion [18.25085327318649]
ProxT2Iと呼ばれる後方離散化に基づくテキスト・トゥ・イメージ(T2I)拡散モデルを開発した。
我々は, LAION-Face-T2I-15Mと呼ばれる, 微細なキャプションを持つ1500万個の高品質な人物画像からなる, 大規模かつオープンソースなデータセットを開発した。
論文 参考訳(メタデータ) (2025-11-24T04:10:53Z) - Transport Based Mean Flows for Generative Modeling [19.973366424307077]
フローマッチング生成モデルは、連続データ生成の強力なパラダイムとして現れています。
これらのモデルは、多数のシーケンシャルサンプリングステップを必要とするため、推論が遅い。
最近の研究はサンプリングステップの数を減らして推論を加速させようとしている。
論文 参考訳(メタデータ) (2025-09-26T17:12:19Z) - Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2025-05-29T10:45:38Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [46.50233461744791]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
事前学習した拡散モデルは,ノイズのある潜在空間におけるステップレベルの報酬モデルに自然に適していることを示す。
雑音の多い遅延空間で直接実行されるステップレベルの優先度最適化手法であるLatent Preference Optimization (LPO)を導入する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T13:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。