論文の概要: LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories
- arxiv url: http://arxiv.org/abs/2604.15311v1
- Date: Thu, 16 Apr 2026 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.05241
- Title: LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories
- Title(参考訳): LeapAlign:2ステップの軌道構築による任意の世代のフローマッチングモデル
- Authors: Zhanhao Liang, Tao Yang, Jie Wu, Chengjian Feng, Liang Zheng,
- Abstract要約: 本稿では、計算コストを削減し、報酬から初期生成段階への直接勾配伝播を可能にする微調整手法である LeapAlignを紹介する。
具体的には、2つの連続的な跳躍を設計し、1つのステップで複数のODEサンプリングステップをスキップし、将来の潜伏を予測することで、長い軌道を2つのステップに短縮する。
Fluxモデルを微調整すると、LeapAlignは、さまざまなメトリクスにわたって、最先端のGRPOベースの直接段階的なメソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 18.714258950883053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on the alignment of flow matching models with human preferences. A promising way is fine-tuning by directly backpropagating reward gradients through the differentiable generation process of flow matching. However, backpropagating through long trajectories results in prohibitive memory costs and gradient explosion. Therefore, direct-gradient methods struggle to update early generation steps, which are crucial for determining the global structure of the final image. To address this issue, we introduce LeapAlign, a fine-tuning method that reduces computational cost and enables direct gradient propagation from reward to early generation steps. Specifically, we shorten the long trajectory into only two steps by designing two consecutive leaps, each skipping multiple ODE sampling steps and predicting future latents in a single step. By randomizing the start and end timesteps of the leaps, LeapAlign leads to efficient and stable model updates at any generation step. To better use such shortened trajectories, we assign higher training weights to those that are more consistent with the long generation path. To further enhance gradient stability, we reduce the weights of gradient terms with large magnitude, instead of completely removing them as done in previous works. When fine-tuning the Flux model, LeapAlign consistently outperforms state-of-the-art GRPO-based and direct-gradient methods across various metrics, achieving superior image quality and image-text alignment.
- Abstract(参考訳): 本稿では,フローマッチングモデルと人間の嗜好の整合性に着目した。
フローマッチングの微分可能生成プロセスを通じて、報酬勾配を直接バックプロパゲートすることで、期待できる方法が微調整される。
しかし、長い軌道をバックプロパゲートすると、メモリのコストが禁じられ、グラデーションが爆発する。
そのため、最終画像のグローバルな構造を決定する上で重要な初期生成ステップの更新に苦慮する。
この問題に対処するために,計算コストを削減し,報酬から初期段階への直接勾配伝播を可能にする微調整手法である LeapAlignを導入する。
具体的には、2つの連続的な跳躍を設計し、1つのステップで複数のODEサンプリングステップをスキップし、将来の潜伏を予測することで、長い軌道を2つのステップに短縮する。
跳躍の開始と終了のタイムステップをランダムにすることで、LeapAlignは任意の生成ステップで効率的で安定したモデル更新につながる。
このような短縮軌跡をよりよく活用するために、より長い世代パスとより整合したトレーニングウェイトを割り当てる。
勾配安定性をさらに高めるため, 従来の作業で行っていた勾配項を完全に除去するのではなく, 大規模に勾配項の重みを減らした。
Fluxモデルを微調整すると、LeapAlignは、最先端のGRPOベースの、そして、さまざまなメトリクスのダイレクトグレートなメソッドを一貫して上回り、優れた画質と画像テキストアライメントを実現している。
関連論文リスト
- Look-Ahead and Look-Back Flows: Training-Free Image Generation with Trajectory Smoothing [3.77130368225397]
流速場調整による画像生成を改善するため, 各種トレーニングフリーなフローマッチング手法が開発されている。
本研究では, 曲率ゲートウェイトを用いて, 電流および次ステップの潜伏を平均化するemphLook-Aheadと, 指数移動平均を用いて潜伏を滑らかにするemphLook-Backの2つの学習自由軌道平滑化手法を提案する。
論文 参考訳(メタデータ) (2026-02-10T06:34:47Z) - ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation [87.54456066636811]
拡散モデルは、シーケンシャルなデノナイジングステップに依存するため、かなりの推論コストに悩まされる。
ArcFlowは数段階の蒸留フレームワークであり、事前訓練された教師の軌跡を近似するために、非線形フロー軌跡を明示的に用いている。
2つのNFEで40倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-09T18:56:14Z) - FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - Know Your Step: Faster and Better Alignment for Flow Matching Models via Step-aware Advantages [6.470160796651034]
本研究では,画像モデルに対するフローマッチングテキストを,人間の好みによく適合した効率的な数ステップ生成器にトレーニングするための新しいフレームワークを提案する。
TAFS GRPOは画像生成のステップ数で高い性能を示し、生成した画像と人間の好みとのアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2026-02-02T03:32:00Z) - Transition Models: Rethinking the Generative Learning Objective [68.16330673177207]
有限時間間隔で状態遷移を解析的に定義する連続時間力学方程式を導入する。
これは、任意のステップ遷移に適応する新しい生成パラダイムである遷移モデル(TiM)をもたらす。
TiMは最先端のパフォーマンスを達成し、SD3.5 (8Bパラメータ)やFLUX.1 (12Bパラメータ)といった主要なモデルを超える。
論文 参考訳(メタデータ) (2025-09-04T17:05:59Z) - Align Your Flow: Scaling Continuous-Time Flow Map Distillation [63.927438959502226]
フローマップは、任意の2つのノイズレベルを1ステップで接続し、すべてのステップカウントで有効に保ちます。
画像生成ベンチマークにおいて、Align Your Flowと呼ばれるフローマップモデルを広範囲に検証する。
テキスト条件付き合成において、既存の非横断的訓練された数ステップのサンプルよりも優れたテキスト間フローマップモデルを示す。
論文 参考訳(メタデータ) (2025-06-17T15:06:07Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Optimal Flow Matching: Learning Straight Trajectories in Just One Step [89.37027530300617]
我々は,新しいtextbf Optimal Flow Matching (OFM) アプローチを開発し,理論的に正当化する。
これは2次輸送のための直列のOT変位をFMの1ステップで回復することを可能にする。
提案手法の主な考え方は,凸関数によってパラメータ化されるFMのベクトル場の利用である。
論文 参考訳(メタデータ) (2024-03-19T19:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。