論文の概要: Multi-Subspace Multi-Modal Modeling for Diffusion Models: Estimation, Convergence and Mixture of Experts
- arxiv url: http://arxiv.org/abs/2601.01475v1
- Date: Sun, 04 Jan 2026 10:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.424781
- Title: Multi-Subspace Multi-Modal Modeling for Diffusion Models: Estimation, Convergence and Mixture of Experts
- Title(参考訳): 拡散モデルのためのマルチサブスペース多モードモデリング:専門家の推定・収束・混合
- Authors: Ruofeng Yang, Yongcan Li, Bo Jiang, Cheng Chen, Shuai Li,
- Abstract要約: 本稿では, 対象データをK$線形部分空間の和としてモデル化する, ガウスモデル(MoLR-MoG)の低ランク混合の混合部分空間を提案する。
このモデリングにより、対応するスコア関数は、自然に専門家(MoE)構造の混合を持ち、マルチモーダル情報をキャプチャし、非線形特性を含む。
この結果から, MoE-latent MoG NN は 10 倍のパラメータを持つ MoE-latent Unet に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 15.571607959541913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion models have achieved a great performance with a small dataset of size $n$ and a fast optimization process. However, the estimation error of diffusion models suffers from the curse of dimensionality $n^{-1/D}$ with the data dimension $D$. Since images are usually a union of low-dimensional manifolds, current works model the data as a union of linear subspaces with Gaussian latent and achieve a $1/\sqrt{n}$ bound. Though this modeling reflects the multi-manifold property, the Gaussian latent can not capture the multi-modal property of the latent manifold. To bridge this gap, we propose the mixture subspace of low-rank mixture of Gaussian (MoLR-MoG) modeling, which models the target data as a union of $K$ linear subspaces, and each subspace admits a mixture of Gaussian latent ($n_k$ modals with dimension $d_k$). With this modeling, the corresponding score function naturally has a mixture of expert (MoE) structure, captures the multi-modal information, and contains nonlinear property. We first conduct real-world experiments to show that the generation results of MoE-latent MoG NN are much better than MoE-latent Gaussian score. Furthermore, MoE-latent MoG NN achieves a comparable performance with MoE-latent Unet with $10 \times$ parameters. These results indicate that the MoLR-MoG modeling is reasonable and suitable for real-world data. After that, based on such MoE-latent MoG score, we provide a $R^4\sqrt{Σ_{k=1}^Kn_k}\sqrt{Σ_{k=1}^Kn_kd_k}/\sqrt{n}$ estimation error, which escapes the curse of dimensionality by using data structure. Finally, we study the optimization process and prove the convergence guarantee under the MoLR-MoG modeling. Combined with these results, under a setting close to real-world data, this work explains why diffusion models only require a small training sample and enjoy a fast optimization process to achieve a great performance.
- Abstract(参考訳): 近年、拡散モデルは、小さいデータセットの$n$と高速な最適化プロセスで優れた性能を達成している。
しかし、拡散モデルの推定誤差は次元$n^{-1/D}$とデータ次元$D$の呪いに悩まされる。
画像は通常、低次元多様体の和集合であるので、現在の作業は、データをガウスラテントとの線型部分空間の和としてモデル化し、1/\sqrt{n}$bound を達成する。
このモデリングは多重多様体の性質を反映するが、ガウスラテントは潜在多様体の多重モジュラー特性を捉えられない。
このギャップを埋めるために、ターゲットデータを$K$線型部分空間の和としてモデル化し、各部分空間は、次元が$d_k$のガウスラテントの混合(n_k$)を許容するガウス混合(MoLR-MoG)の混合部分空間を提案する。
このモデリングにより、対応するスコア関数は、自然に専門家(MoE)構造の混合を持ち、マルチモーダル情報をキャプチャし、非線形特性を含む。
最初に実世界の実験を行い、MoE-latent MoG NNの生成結果がMoE-latent Gaussianスコアよりもはるかに優れていることを示す。
さらに、MoE-latent MoG NNは、10 \times$パラメータを持つMoE-latent Unetと同等のパフォーマンスを実現している。
これらの結果は,MoLR-MoGモデリングが現実のデータに適していることを示している。
その後、そのようなMoE-latent MoGスコアに基づいて、データ構造を用いて次元の呪いを逃れる推定誤差を$R^4\sqrt{Σ_{k=1}^Kn_k}\sqrt{Σ_{k=1}^Kn_kd_k}/\sqrt{n}$とする。
最後に,MoLR-MoGモデルを用いて最適化プロセスの検証と収束保証の検証を行う。
これらの結果と組み合わせて、実世界のデータに近い設定の下で、拡散モデルが小さなトレーニングサンプルのみを必要とし、優れたパフォーマンスを達成するために高速な最適化プロセスを楽しむ理由を説明する。
関連論文リスト
- Dimension-Free Convergence of Diffusion Models for Approximate Gaussian Mixtures [18.828955620788566]
拡散モデルは、その例外的な生成性能によって区別される。
本稿では,複雑な高次元分布のサンプリングにおける拡散モデルの有効性について検討する。
論文 参考訳(メタデータ) (2025-04-07T17:59:07Z) - SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - A Sharp Convergence Theory for The Probability Flow ODEs of Diffusion Models [45.60426164657739]
拡散型サンプリング器の非漸近収束理論を開発する。
我々は、$d/varepsilon$がターゲット分布を$varepsilon$トータル偏差距離に近似するのに十分であることを証明した。
我々の結果は、$ell$のスコア推定誤差がデータ生成プロセスの品質にどのように影響するかも特徴付ける。
論文 参考訳(メタデータ) (2024-08-05T09:02:24Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - PFGM++: Unlocking the Potential of Physics-Inspired Generative Models [14.708385906024546]
PFGM++と呼ばれる物理に着想を得た新しい生成モデルを導入する。
これらのモデルは、$N+D$次元空間に経路を埋め込むことにより、$N$次元データの生成軌道を実現する。
有限$D$のモデルは、従来の最先端拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T18:58:02Z) - Neural Implicit Manifold Learning for Topology-Aware Density Estimation [15.878635603835063]
現在の生成モデルは、ニューラルネットワークを介して$m$次元の潜在変数をマッピングすることで、$mathcalM$を学ぶ。
我々のモデルは、プッシュフォワードモデルよりも複雑なトポロジーを持つ多様体支持分布を正確に学習できることが示される。
論文 参考訳(メタデータ) (2022-06-22T18:00:00Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。