論文の概要: Efficient Flow Matching using Latent Variables
- arxiv url: http://arxiv.org/abs/2505.04486v2
- Date: Fri, 23 May 2025 18:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:54.65975
- Title: Efficient Flow Matching using Latent Variables
- Title(参考訳): 潜在変数を用いた効率的な流れマッチング
- Authors: Anirban Samaddar, Yixuan Sun, Viktor Nilsson, Sandeep Madireddy,
- Abstract要約: 我々は、マルチモーダルデータ構造を組み込むための簡易なトレーニング/推論戦略を提供する、$textttLatent-CFM$を提示する。
textttLatent-CFM$は、トレーニングを著しく減らして、生成品質が向上していることを示す。
- 参考スコア(独自算出の注目度): 3.5817637191799605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow matching models have shown great potential in image generation tasks among probabilistic generative models. However, most flow matching models in the literature do not explicitly model the underlying structure/manifold in the target data when learning the flow from a simple source distribution like the standard Gaussian. This leads to inefficient learning, especially for many high-dimensional real-world datasets, which often reside in a low-dimensional manifold. Existing strategies of incorporating manifolds, including data with underlying multi-modal distribution, often require expensive training and hence frequently lead to suboptimal performance. To this end, we present $\texttt{Latent-CFM}$, which provides simplified training/inference strategies to incorporate multi-modal data structures using pretrained deep latent variable models. Through experiments on multi-modal synthetic data and widely used image benchmark datasets, we show that $\texttt{Latent-CFM}$ exhibits improved generation quality with significantly less training (up to $\sim 50\%$ less) and computation than state-of-the-art flow matching models by incorporating extracted data features using pretrained lightweight latent variable models. Moving beyond natural images to generating fields arising from processes governed by physics, using a 2d Darcy flow dataset, we demonstrate that our approach generates more physically accurate samples than competitive approaches. In addition, through latent space analysis, we demonstrate that our approach can be used for conditional image generation conditioned on latent features, which adds interpretability to the generation process.
- Abstract(参考訳): フローマッチングモデルは確率的生成モデルの間で画像生成タスクに大きな可能性を示している。
しかし、文献におけるほとんどのフローマッチングモデルは、標準ガウス分布のような単純なソース分布からフローを学習する際に、対象データ内の基盤構造/マニフォールドを明示的にモデル化していない。
これは非効率な学習をもたらし、特に低次元多様体にしばしば存在する多くの高次元実世界のデータセットに対してである。
基礎となるマルチモーダル分布を持つデータを含む、多様体を組み込む既存の戦略は、しばしば高価な訓練を必要とし、従って、しばしば準最適性能をもたらす。
この目的のために、事前訓練された深層潜伏変数モデルを用いてマルチモーダルデータ構造を組み込むための簡易なトレーニング/推論戦略を提供する$\texttt{Latent-CFM}$を提示する。
マルチモーダル合成データと広範に使用されている画像ベンチマークデータセットの実験により、$\texttt{Latent-CFM}$は、トレーニングが大幅に少ない(最大$\sim 50\%$)生成品質と、事前訓練された軽量潜伏変数モデルを用いて抽出されたデータ特徴を組み込むことにより、最先端のフローマッチングモデルよりも計算能力を向上させることを示した。
自然画像を超えて、2次元ダーシーフローデータセットを用いて、物理が支配するプロセスから生じるフィールドを生成することで、我々のアプローチが競合するアプローチよりもより物理的に正確なサンプルを生成することを示す。
さらに、潜時空間解析により、この手法が潜時特徴に条件付き条件付き画像生成に有効であることが示され、生成プロセスに解釈可能性が追加された。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Diffusion models for multivariate subsurface generation and efficient probabilistic inversion [0.0]
拡散モデルは、深い生成モデリングタスクのための安定したトレーニングと最先端のパフォーマンスを提供する。
本稿では拡散モデルに固有のノイズ汚染を考慮した近似法を提案する。
統計的ロバスト性は有意に向上し, 後部確率密度関数のサンプリングが向上した。
論文 参考訳(メタデータ) (2025-07-21T17:10:16Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Local Flow Matching Generative Models [19.859984725284896]
局所フローマッチング(Local Flow Matching)は、フローベース生成モデルに基づく密度推定のための計算フレームワークである。
$textttLFM$はシミュレーション不要のスキームを採用し、フローマッチングサブモデルのシーケンスを漸進的に学習する。
FMと比較して, $textttLFM$ のトレーニング効率と競争的生成性能の改善を実証した。
論文 参考訳(メタデータ) (2024-10-03T14:53:10Z) - Fisher Flow Matching for Generative Modeling over Discrete Data [12.69975914345141]
離散データのための新しいフローマッチングモデルであるFisher-Flowを紹介する。
Fisher-Flowは、離散データ上のカテゴリー分布を考慮し、明らかに幾何学的な視点を採っている。
Fisher-Flowにより誘導される勾配流は, 前方KLの発散を低減するのに最適であることを示す。
論文 参考訳(メタデータ) (2024-05-23T15:02:11Z) - DepthFM: Fast Monocular Depth Estimation with Flow Matching [22.206355073676082]
現在の識別的深さ推定法は、しばしばぼやけた人工物を生成するが、生成的アプローチはノイズ・ツー・ディープ・トランスポートの曲率によるサンプリングが遅い。
本手法は,画像と深度分布間の直接輸送として深度推定をフレーミングすることで,これらの課題に対処する。
提案手法は, 複雑な自然シーンの標準ベンチマークにおいて, サンプリング効率を向上し, 学習に最小限の合成データしか必要とせず, 競争力のあるゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-03-20T17:51:53Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - VQ-Flows: Vector Quantized Local Normalizing Flows [2.7998963147546148]
データ多様体上の「チャートマップ」として局所正規化フローの混合を学習するための新しい統計フレームワークを導入する。
本フレームワークは, 正規化フローのシグネチャ特性を保ちながら, 最近の手法の表現性を向上し, 正確な密度評価を行う。
論文 参考訳(メタデータ) (2022-03-22T09:22:18Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Flow-based Generative Models for Learning Manifold to Manifold Mappings [39.60406116984869]
本稿では,フローベース生成モデルに類似した,多様体値データに対する可逆層を3種類導入する。
配向分布関数の分野の脳画像を確実にかつ正確に再構築できる有望な結果を示します。
論文 参考訳(メタデータ) (2020-12-18T02:19:18Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Flows for simultaneous manifold learning and density estimation [12.451050883955071]
多様体学習フロー(M-flow)は、多様体構造を持つデータセットをより忠実に表現する。
M-フローはデータ多様体を学習し、周囲のデータ空間の標準フローよりも優れた推論を可能にする。
論文 参考訳(メタデータ) (2020-03-31T02:07:48Z) - Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。
我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文 参考訳(メタデータ) (2019-12-30T17:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。