論文の概要: Efficient Flow Matching using Latent Variables
- arxiv url: http://arxiv.org/abs/2505.04486v2
- Date: Fri, 23 May 2025 18:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.65975
- Title: Efficient Flow Matching using Latent Variables
- Title(参考訳): 潜在変数を用いた効率的な流れマッチング
- Authors: Anirban Samaddar, Yixuan Sun, Viktor Nilsson, Sandeep Madireddy,
- Abstract要約: 我々は、マルチモーダルデータ構造を組み込むための簡易なトレーニング/推論戦略を提供する、$textttLatent-CFM$を提示する。
textttLatent-CFM$は、トレーニングを著しく減らして、生成品質が向上していることを示す。
- 参考スコア(独自算出の注目度): 3.5817637191799605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow matching models have shown great potential in image generation tasks among probabilistic generative models. However, most flow matching models in the literature do not explicitly model the underlying structure/manifold in the target data when learning the flow from a simple source distribution like the standard Gaussian. This leads to inefficient learning, especially for many high-dimensional real-world datasets, which often reside in a low-dimensional manifold. Existing strategies of incorporating manifolds, including data with underlying multi-modal distribution, often require expensive training and hence frequently lead to suboptimal performance. To this end, we present $\texttt{Latent-CFM}$, which provides simplified training/inference strategies to incorporate multi-modal data structures using pretrained deep latent variable models. Through experiments on multi-modal synthetic data and widely used image benchmark datasets, we show that $\texttt{Latent-CFM}$ exhibits improved generation quality with significantly less training (up to $\sim 50\%$ less) and computation than state-of-the-art flow matching models by incorporating extracted data features using pretrained lightweight latent variable models. Moving beyond natural images to generating fields arising from processes governed by physics, using a 2d Darcy flow dataset, we demonstrate that our approach generates more physically accurate samples than competitive approaches. In addition, through latent space analysis, we demonstrate that our approach can be used for conditional image generation conditioned on latent features, which adds interpretability to the generation process.
- Abstract(参考訳): フローマッチングモデルは確率的生成モデルの間で画像生成タスクに大きな可能性を示している。
しかし、文献におけるほとんどのフローマッチングモデルは、標準ガウス分布のような単純なソース分布からフローを学習する際に、対象データ内の基盤構造/マニフォールドを明示的にモデル化していない。
これは非効率な学習をもたらし、特に低次元多様体にしばしば存在する多くの高次元実世界のデータセットに対してである。
基礎となるマルチモーダル分布を持つデータを含む、多様体を組み込む既存の戦略は、しばしば高価な訓練を必要とし、従って、しばしば準最適性能をもたらす。
この目的のために、事前訓練された深層潜伏変数モデルを用いてマルチモーダルデータ構造を組み込むための簡易なトレーニング/推論戦略を提供する$\texttt{Latent-CFM}$を提示する。
マルチモーダル合成データと広範に使用されている画像ベンチマークデータセットの実験により、$\texttt{Latent-CFM}$は、トレーニングが大幅に少ない(最大$\sim 50\%$)生成品質と、事前訓練された軽量潜伏変数モデルを用いて抽出されたデータ特徴を組み込むことにより、最先端のフローマッチングモデルよりも計算能力を向上させることを示した。
自然画像を超えて、2次元ダーシーフローデータセットを用いて、物理が支配するプロセスから生じるフィールドを生成することで、我々のアプローチが競合するアプローチよりもより物理的に正確なサンプルを生成することを示す。
さらに、潜時空間解析により、この手法が潜時特徴に条件付き条件付き画像生成に有効であることが示され、生成プロセスに解釈可能性が追加された。
関連論文リスト
- Local Flow Matching Generative Models [19.859984725284896]
局所フローマッチング(Local Flow Matching)は、フローベース生成モデルに基づく密度推定のための計算フレームワークである。
$textttLFM$はシミュレーション不要のスキームを採用し、フローマッチングサブモデルのシーケンスを漸進的に学習する。
FMと比較して, $textttLFM$ のトレーニング効率と競争的生成性能の改善を実証した。
論文 参考訳(メタデータ) (2024-10-03T14:53:10Z) - Fisher Flow Matching for Generative Modeling over Discrete Data [12.69975914345141]
離散データのための新しいフローマッチングモデルであるFisher-Flowを紹介する。
Fisher-Flowは、離散データ上のカテゴリー分布を考慮し、明らかに幾何学的な視点を採っている。
Fisher-Flowにより誘導される勾配流は, 前方KLの発散を低減するのに最適であることを示す。
論文 参考訳(メタデータ) (2024-05-23T15:02:11Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - VQ-Flows: Vector Quantized Local Normalizing Flows [2.7998963147546148]
データ多様体上の「チャートマップ」として局所正規化フローの混合を学習するための新しい統計フレームワークを導入する。
本フレームワークは, 正規化フローのシグネチャ特性を保ちながら, 最近の手法の表現性を向上し, 正確な密度評価を行う。
論文 参考訳(メタデータ) (2022-03-22T09:22:18Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Flows for simultaneous manifold learning and density estimation [12.451050883955071]
多様体学習フロー(M-flow)は、多様体構造を持つデータセットをより忠実に表現する。
M-フローはデータ多様体を学習し、周囲のデータ空間の標準フローよりも優れた推論を可能にする。
論文 参考訳(メタデータ) (2020-03-31T02:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。