論文の概要: How Do Flow Matching Models Memorize and Generalize in Sample Data Subspaces?
- arxiv url: http://arxiv.org/abs/2410.23594v1
- Date: Thu, 31 Oct 2024 03:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:47.452359
- Title: How Do Flow Matching Models Memorize and Generalize in Sample Data Subspaces?
- Title(参考訳): サンプルデータ部分空間におけるフローマッチングモデルはどのように記憶・一般化されるか?
- Authors: Weiguo Gao, Ming Li,
- Abstract要約: 実世界のデータは、しばしば高次元空間に埋め込まれた低次元構造の中に存在すると仮定される。
実際の設定では、有限個のサンプルのみを観測し、サンプルデータ部分空間と呼ばれるものを形成する。
大きな課題は、生成モデルがこの部分空間内に留まるサンプルを確実に合成できるかどうかである。
- 参考スコア(独自算出の注目度): 10.315743300140966
- License:
- Abstract: Real-world data is often assumed to lie within a low-dimensional structure embedded in high-dimensional space. In practical settings, we observe only a finite set of samples, forming what we refer to as the sample data subspace. It serves an essential approximation supporting tasks such as dimensionality reduction and generation. A major challenge lies in whether generative models can reliably synthesize samples that stay within this subspace rather than drifting away from the underlying structure. In this work, we provide theoretical insights into this challenge by leveraging Flow Matching models, which transform a simple prior into a complex target distribution via a learned velocity field. By treating the real data distribution as discrete, we derive analytical expressions for the optimal velocity field under a Gaussian prior, showing that generated samples memorize real data points and represent the sample data subspace exactly. To generalize to suboptimal scenarios, we introduce the Orthogonal Subspace Decomposition Network (OSDNet), which systematically decomposes the velocity field into subspace and off-subspace components. Our analysis shows that the off-subspace component decays, while the subspace component generalizes within the sample data subspace, ensuring generated samples preserve both proximity and diversity.
- Abstract(参考訳): 実世界のデータは、しばしば高次元空間に埋め込まれた低次元構造の中に存在すると仮定される。
実際の設定では、有限個のサンプルのみを観測し、サンプルデータ部分空間と呼ばれるものを形成する。
次元の減少や生成といったタスクを支援する重要な近似として機能する。
大きな課題は、生成モデルがこのサブスペース内に留まるサンプルを、基礎構造から遠ざかるのではなく確実に合成できるかどうかである。
本研究では、フローマッチングモデルを利用して、学習速度場を介して単純な事前を複雑な目標分布に変換することにより、この課題に対する理論的洞察を提供する。
実データ分布を離散的に扱うことにより、ガウス先行条件下での最適速度場の解析式を導出し、生成したサンプルが実データ点を記憶し、標本データ部分空間を正確に表現することを示す。
準最適シナリオを一般化するために,速度場をサブスペースとオフサブスペースに体系的に分解するOrthogonal Subspace Decomposition Network (OSDNet)を導入する。
解析により, 部分空間成分が崩壊する一方, 部分空間成分はサンプルデータ部分空間内を一般化し, 生成したサンプルが近接性と多様性の両方を保つことが確認された。
関連論文リスト
- Trivialized Momentum Facilitates Diffusion Generative Modeling on Lie Groups [37.78638937228254]
本稿では、自明化と呼ばれる手法がユークリッド空間における拡散モデルの有効性をリー群に伝達する方法を示す。
モーメント変数は、データ分布と固定されたサンプル分布の間の位置変数の移動を支援するためにアルゴリズムによって導入された。
得られた方法は、タンパク質およびRNAのねじれ角の生成および洗練されたトーラスデータセットに対する最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-25T23:53:07Z) - Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI [29.13807697733638]
自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
論文 参考訳(メタデータ) (2024-04-10T22:35:06Z) - On Deep Generative Models for Approximation and Estimation of
Distributions on Manifolds [38.311376714689]
生成ネットワークは、低次元の簡単サンプル分布から高次元の複素データを生成することができる。
このような低次元データ構造を、低次元多様体上でのデータ分布が支えられていると仮定して検討する。
ワッサーシュタイン-1の損失は、周囲のデータ次元ではなく内在次元に依存する速度でゼロに収束することを示す。
論文 参考訳(メタデータ) (2023-02-25T22:34:19Z) - Score-based Diffusion Models in Function Space [140.792362459734]
拡散モデルは、最近、生成モデリングの強力なフレームワークとして登場した。
本稿では,関数空間における拡散モデルをトレーニングするためのDDO(Denoising Diffusion Operators)という,数学的に厳密なフレームワークを提案する。
データ解像度に依存しない固定コストで、対応する離散化アルゴリズムが正確なサンプルを生成することを示す。
論文 参考訳(メタデータ) (2023-02-14T23:50:53Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - ManiFlow: Implicitly Representing Manifolds with Normalizing Flows [145.9820993054072]
正規化フロー(NF)は、複雑な実世界のデータ分布を正確にモデル化することが示されているフレキシブルな明示的な生成モデルである。
摂動分布から標本を与えられた多様体上の最も可能性の高い点を復元する最適化目的を提案する。
最後に、NFsの明示的な性質、すなわち、ログのような勾配とログのような勾配から抽出された表面正規化を利用する3次元点雲に焦点を当てる。
論文 参考訳(メタデータ) (2022-08-18T16:07:59Z) - Revisiting data augmentation for subspace clustering [21.737226432466496]
サブスペースクラスタリング(Subspace clustering)は、複数の低次元のサブスペースを囲むデータサンプルの集合をクラスタリングする古典的な問題である。
我々は,各部分空間内のデータ分布が自己表現モデルの成功に重要な役割を果たしていると主張している。
教師なし設定と半教師なし設定の2つのサブスペースクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T08:13:08Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Super-resolution GANs of randomly-seeded fields [68.8204255655161]
ランダムスパースセンサからフィールド量の推定を行うための,GAN(Super- resolution Generative Adversarial Network)フレームワークを提案する。
このアルゴリズムはランダムサンプリングを利用して、高解像度の基底分布の不完全ビューを提供する。
提案手法は, 流体流動シミュレーション, 海洋表面温度分布測定, 粒子画像速度測定データの合成データベースを用いて検証した。
論文 参考訳(メタデータ) (2022-02-23T18:57:53Z) - Intrinsic Dimension Estimation [92.87600241234344]
内在次元の新しい推定器を導入し, 有限標本, 非漸近保証を提供する。
次に、本手法を適用して、データ固有の次元に依存するGAN(Generative Adversarial Networks)に対する新しいサンプル複雑性境界を求める。
論文 参考訳(メタデータ) (2021-06-08T00:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。