論文の概要: Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching
- arxiv url: http://arxiv.org/abs/2602.05951v1
- Date: Thu, 05 Feb 2026 18:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.106418
- Title: Better Source, Better Flow: Learning Condition-Dependent Source Distribution for Flow Matching
- Title(参考訳): より良いソース、より良いフロー:フローマッチングのための条件依存ソース分布の学習
- Authors: Junwan Kim, Jiho Park, Seonghu Jeon, Seungryong Kim,
- Abstract要約: 拡散に基づく生成モデルに代わる有望な代替手段としてフローマッチングが登場した。
本稿では,現代テキスト・画像システムにおいて,ソース分布の原理的設計は実現可能であるだけでなく,有用であることを示す。
- 参考スコア(独自算出の注目度): 34.811045663987805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow matching has recently emerged as a promising alternative to diffusion-based generative models, particularly for text-to-image generation. Despite its flexibility in allowing arbitrary source distributions, most existing approaches rely on a standard Gaussian distribution, a choice inherited from diffusion models, and rarely consider the source distribution itself as an optimization target in such settings. In this work, we show that principled design of the source distribution is not only feasible but also beneficial at the scale of modern text-to-image systems. Specifically, we propose learning a condition-dependent source distribution under flow matching objective that better exploit rich conditioning signals. We identify key failure modes that arise when directly incorporating conditioning into the source, including distributional collapse and instability, and show that appropriate variance regularization and directional alignment between source and target are critical for stable and effective learning. We further analyze how the choice of target representation space impacts flow matching with structured sources, revealing regimes in which such designs are most effective. Extensive experiments across multiple text-to-image benchmarks demonstrate consistent and robust improvements, including up to a 3x faster convergence in FID, highlighting the practical benefits of a principled source distribution design for conditional flow matching.
- Abstract(参考訳): フローマッチングは,特にテキスト・ツー・イメージ生成において,拡散ベースの生成モデルに代わる有望な選択肢として最近登場した。
任意のソース分布を許容する柔軟性にもかかわらず、既存のほとんどのアプローチは、拡散モデルから受け継いだ選択である標準ガウス分布に依存しており、そのような設定でソース分布自体を最適化ターゲットとみなすことは滅多にない。
本研究は,現代のテキスト・画像システムにおいて,音源分布の原理設計は実現可能であるだけでなく,有用であることを示す。
具体的には,フローマッチングの目的の下で条件依存のソース分布を学習し,よりリッチな条件付け信号を活用することを提案する。
分散的崩壊や不安定性を含む条件付けを直接組み込んだ場合に発生する重要な障害モードを同定し、ソースとターゲット間の適切な分散規則化と方向調整が安定的で効果的な学習に重要であることを示す。
さらに、ターゲット表現空間の選択が、構造されたソースとのフローマッチングにどのように影響するかを解析し、そのような設計が最も効果的である状況を明らかにする。
複数のテキスト・ツー・イメージ・ベンチマークにわたる大規模な実験は、FIDの最大3倍高速収束を含む一貫性と堅牢性の向上を示し、条件付きフローマッチングのための原則的ソース分散設計の実践的メリットを強調している。
関連論文リスト
- Is There a Better Source Distribution than Gaussian? Exploring Source Distributions for Image Flow Matching [27.47409979324549]
フローマッチングは、ソース分布の柔軟な選択を伴う強力な生成モデリングアプローチとして登場した。
解釈可能な2次元設定で高次元の幾何学的特性をキャプチャする新しい2次元シミュレーションを提案する。
本稿では,正規整列学習と方向決定型サンプリングを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T02:44:54Z) - Distribution Matching Variational AutoEncoder [24.58582338610613]
VAEのような既存のアプローチは、その分布を明示的に形作ることなく、潜在空間を暗黙的に制限する。
textbfDMVAE(textbfDMVAE)を導入し、エンコーダの潜在分布と任意の参照分布を明示的に整列する。
提案手法は, モデルからモデルへの遅延と高忠実度画像合成のギャップを埋める上で, 適切な潜伏分布構造(分布レベルアライメント)を選択することが重要であることを示唆する。
論文 参考訳(メタデータ) (2025-12-08T17:59:47Z) - Conformal Prediction for Multi-Source Detection on a Network [59.17729745907474]
マルチソース検出問題について検討する。
グラフ上のノード感染状況のスナップショットが与えられた場合、伝播を開始するソースノードのセットを推定する。
本稿では,ソースセット検出のための統計的に有効なリコール保証を提供する新しいコンフォメーション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-12T01:09:56Z) - Source-Guided Flow Matching [7.888172595458005]
本稿ではソースガイド型フローマッチングフレームワークを提案する。
事前訓練されたベクトル場をそのまま保ちながら、ソース分布を直接修正する。
これにより、ガイダンス問題は、ソース分布からサンプリングする、明確に定義された問題に還元される。
論文 参考訳(メタデータ) (2025-08-20T15:56:25Z) - Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。
特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文 参考訳(メタデータ) (2025-06-05T16:59:53Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - The Score-Difference Flow for Implicit Generative Modeling [1.1929584800629673]
Inlicit Generative Modelingは、対象データ分布と一致する合成データのサンプルを作成することを目的としている。
最近の研究は、合成音源データをターゲット分布へプッシュする観点から、IGG問題にアプローチしている。
任意のターゲット分布とソース分布のスコア差を,Kulback-Leibler分散を最適に低減するフローとして提示する。
論文 参考訳(メタデータ) (2023-04-25T15:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。