論文の概要: Alignment of Diffusion Model and Flow Matching for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2602.00413v1
- Date: Sat, 31 Jan 2026 00:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.171581
- Title: Alignment of Diffusion Model and Flow Matching for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成のための拡散モデルとフローマッチングのアライメント
- Authors: Yidong Ouyang, Liyan Xie, Hongyuan Zha, Guang Cheng,
- Abstract要約: 拡散モデルとフローマッチングは、テキスト・画像生成において顕著な成功を収めた。
本稿では,アライメント問題の根底にある性質を活用することで,新しいアライメントフレームワークを提案する。
計算コストを60%以上削減した1ステップ生成のファインタニングモデルに匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 39.484148941369234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models and flow matching have demonstrated remarkable success in text-to-image generation. While many existing alignment methods primarily focus on fine-tuning pre-trained generative models to maximize a given reward function, these approaches require extensive computational resources and may not generalize well across different objectives. In this work, we propose a novel alignment framework by leveraging the underlying nature of the alignment problem -- sampling from reward-weighted distributions -- and show that it applies to both diffusion models (via score guidance) and flow matching models (via velocity guidance). The score function (velocity field) required for the reward-weighted distribution can be decomposed into the pre-trained score (velocity field) plus a conditional expectation of the reward. For the alignment on the diffusion model, we identify a fundamental challenge: the adversarial nature of the guidance term can introduce undesirable artifacts in the generated images. Therefore, we propose a finetuning-free framework that trains a guidance network to estimate the conditional expectation of the reward. We achieve comparable performance to finetuning-based models with one-step generation with at least a 60% reduction in computational cost. For the alignment on flow matching, we propose a training-free framework that improves the generation quality without additional computational cost.
- Abstract(参考訳): 拡散モデルとフローマッチングは、テキスト・画像生成において顕著な成功を収めた。
既存のアライメント手法の多くは、与えられた報酬関数を最大化するために、微調整された事前学習された生成モデルに重点を置いているが、これらの手法は広範な計算資源を必要とし、異なる目的に対してうまく一般化できない可能性がある。
本研究では,アライメント問題の根底にある性質である報酬重み付け分布のサンプリングを生かしたアライメント・フレームワークを提案し,(スコア・ガイダンスによる)拡散モデルと(ベロシティ・ガイダンスによる)流れマッチングモデルの両方に適用可能であることを示す。
報酬重み付け分布に必要なスコア関数(速度場)を、事前訓練されたスコア(速度場)と、報酬の条件付き期待とに分解することができる。
拡散モデルのアライメントについて、誘導項の対角的性質は、生成した画像に望ましくないアーティファクトを導入することができる、という根本的な課題を同定する。
そこで本稿では,報酬の条件付き期待値を推定するためにガイダンスネットワークを訓練するファインタニングフリーフレームワークを提案する。
計算コストを60%以上削減した1ステップ生成のファインタニングモデルに匹敵する性能を実現する。
フローマッチングのアライメントについて,計算コストを伴わずに生成品質を向上する学習自由フレームワークを提案する。
関連論文リスト
- Composition and Alignment of Diffusion Models using Constrained Learning [79.36736636241564]
拡散モデルは、複雑な分布からサンプルを採取する能力により、生成的モデリングにおいて普及している。
i) 拡散モデルを微調整して報酬と整合させるアライメントと、(ii) 予め訓練された拡散モデルを組み合わせて、それぞれが生成した出力に望ましい属性を強調する合成である。
本稿では,共役モデルが報酬制約を満たすこと,あるいは(潜在的に複数の)事前学習モデルに近づき続けることを強制することによって,拡散モデルのアライメントと構成を統一する制約付き最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T15:06:30Z) - Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。
特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文 参考訳(メタデータ) (2025-06-05T16:59:53Z) - Flow Matching Posterior Sampling: A Training-free Conditional Generation for Flow Matching [13.634043135217254]
本稿では,Flow Matching を用いた Posterior Smpling (FMPS) を提案し,その適用範囲を拡大する。
この補正項は、サロゲートスコア関数を組み込むように再構成することができる。
FMPSは既存の最先端手法に比べて優れた世代品質が得られることを示す。
論文 参考訳(メタデータ) (2024-11-12T08:14:39Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。