論文の概要: Sparse Data Generation Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.02448v2
- Date: Wed, 21 May 2025 09:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.405094
- Title: Sparse Data Generation Using Diffusion Models
- Title(参考訳): 拡散モデルを用いたスパースデータ生成
- Authors: Phil Ostheimer, Mayank Nagda, Jean Radig, Carl Herrmann, Stephan Mandt, Marius Kloft, Sophie Fellenz,
- Abstract要約: 本稿では,スパースデータを生成する新しい手法であるスパースデータ拡散(SDD)を紹介する。
SDD は連続状態空間拡散モデルを拡張し、空間空間をモデル化することで正確な零点を明示する。
物理学と生物学の2つの科学的応用を含む様々な分野における実証的検証は、SDDがデータの空間性を表現する上で高い忠実性を達成することを示した。
- 参考スコア(独自算出の注目度): 32.0051633707266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse data is ubiquitous, appearing in numerous domains, from economics and recommender systems to astronomy and biomedical sciences. However, efficiently generating high-fidelity synthetic sparse data remains a significant challenge. We introduce Sparse Data Diffusion (SDD), a novel method for generating sparse data. SDD extends continuous state-space diffusion models with an explicit representation of exact zeros by modeling sparsity through the introduction of Sparsity Bits. Empirical validation in various domains, including two scientific applications in physics and biology, demonstrates that SDD achieves high fidelity in representing data sparsity while preserving the quality of the generated data.
- Abstract(参考訳): スパースデータはユビキタスであり、経済学やレコメンデーターシステムから天文学や生物医学まで、多くの領域に存在している。
しかし、高忠実度合成スパースデータを効率的に生成することは大きな課題である。
本稿では,スパースデータを生成する新しい手法であるスパースデータ拡散(SDD)を紹介する。
SDDは、スパーシティビットの導入により、スパーシティをモデル化することで、完全零点の明示的な表現で連続的な状態空間拡散モデルを拡張する。
物理と生物学の2つの科学的応用を含む様々な領域における実証的検証は、SDDが生成したデータの質を保ちながら、データの空間性を表現する上で高い忠実性を達成することを示した。
関連論文リスト
- Generative Learning of Densities on Manifolds [3.081704060720176]
拡散モデルと多様体学習を組み合わせた生成モデリングフレームワークを提案する。
このアプローチは拡散マップを用いて、高次元データ(周囲)空間の低次元(ラテント)空間を発見できる。
論文 参考訳(メタデータ) (2025-03-05T23:29:06Z) - A Novel Diffusion Model for Pairwise Geoscience Data Generation with Unbalanced Training Dataset [8.453075713579631]
UB-Diff'はマルチモーダルなペア型科学データ生成のための新しい拡散モデルである。
1つの大きな革新は、1対2のエンコーダ・デコーダネットワーク構造であり、コラテント表現からペアのデータを確実に得ることができる。
OpenFWIデータセットの実験結果から,UB-DiffはFr'echet Inception Distance(FID)スコアとペア評価において,既存の技術よりも優れていた。
論文 参考訳(メタデータ) (2025-01-01T19:49:38Z) - Data Augmentation via Diffusion Model to Enhance AI Fairness [1.2979015577834876]
本稿では,AIフェアネスを改善するために合成データを生成する拡散モデルの可能性について検討する。
Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM) を用いてデータ拡張を行った。
実験結果から,Tab-DDPMにより生成された合成データは,二項分類の公平性を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-20T18:52:31Z) - DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。
DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。
また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-19T15:04:35Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - A Bayesian Gaussian Process-Based Latent Discriminative Generative Decoder (LDGD) Model for High-Dimensional Data [0.41942958779358674]
潜在判別生成デコーダ(LDGD)は、多様体発見過程において、データと関連するラベルの両方を用いる。
LDGDは,データサイズに制限のあるシナリオに対して,多様体を頑健に推論し,正確にラベルを予測することができることを示す。
論文 参考訳(メタデータ) (2024-01-29T19:11:03Z) - Deep Generative Modeling-based Data Augmentation with Demonstration
using the BFBT Benchmark Void Fraction Datasets [3.341975883864341]
本稿では、画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。
トレーニングが完了すると、DGMはトレーニングデータに類似した合成データを生成し、データセットのサイズを大幅に拡大するために使用することができる。
論文 参考訳(メタデータ) (2023-08-19T22:19:41Z) - Score-based Diffusion Models in Function Space [137.70916238028306]
拡散モデルは、最近、生成モデリングの強力なフレームワークとして登場した。
この研究は、関数空間における拡散モデルをトレーニングするためのDDO(Denoising Diffusion Operators)と呼ばれる数学的に厳密なフレームワークを導入する。
データ解像度に依存しない固定コストで、対応する離散化アルゴリズムが正確なサンプルを生成することを示す。
論文 参考訳(メタデータ) (2023-02-14T23:50:53Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Diffusion Earth Mover's Distance and Distribution Embeddings [61.49248071384122]
拡散は$tildeo(n)$ timeで計算でき、ツリーベースのような同様の高速アルゴリズムよりも正確である。
拡散は完全微分可能であり、深層ニューラルネットワークのような勾配拡散フレームワークの将来の使用に適している。
論文 参考訳(メタデータ) (2021-02-25T13:18:32Z) - VAEM: a Deep Generative Model for Heterogeneous Mixed Type Data [16.00692074660383]
VAEMは2段階的に訓練された深層生成モデルである。
VAEMは、深層生成モデルをうまく展開できる現実世界のアプリケーションの範囲を広げることを示す。
論文 参考訳(メタデータ) (2020-06-21T23:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。