論文の概要: DiffPuter: Empowering Diffusion Models for Missing Data Imputation
- arxiv url: http://arxiv.org/abs/2405.20690v2
- Date: Sat, 24 May 2025 02:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:41.611871
- Title: DiffPuter: Empowering Diffusion Models for Missing Data Imputation
- Title(参考訳): DiffPuter: データインプットを欠くための拡散モデル
- Authors: Hengrui Zhang, Liancheng Fang, Qitian Wu, Philip S. Yu,
- Abstract要約: 本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。
我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。
DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
- 参考スコア(独自算出の注目度): 56.48119008663155
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative models play an important role in missing data imputation in that they aim to learn the joint distribution of full data. However, applying advanced deep generative models (such as Diffusion models) to missing data imputation is challenging due to 1) the inherent incompleteness of the training data and 2) the difficulty in performing conditional inference from unconditional generative models. To deal with these challenges, this paper introduces DiffPuter, a tailored diffusion model combined with the Expectation-Maximization (EM) algorithm for missing data imputation. DiffPuter iteratively trains a diffusion model to learn the joint distribution of missing and observed data and performs an accurate conditional sampling to update the missing values using a tailored reversed sampling strategy. Our theoretical analysis shows that DiffPuter's training step corresponds to the maximum likelihood estimation of data density (M-step), and its sampling step represents the Expected A Posteriori estimation of missing values (E-step). Extensive experiments across ten diverse datasets and comparisons with 17 different imputation methods demonstrate DiffPuter's superior performance. Notably, DiffPuter achieves an average improvement of 6.94% in MAE and 4.78% in RMSE compared to the most competitive existing method.
- Abstract(参考訳): 生成モデルは、完全なデータの共同分布を学習することを目的として、データ計算の欠如において重要な役割を果たす。
しかし、拡散モデルのような高度な深層生成モデルの適用は、データ計算の欠如により困難である。
1)トレーニングデータの固有の不完全性及び
2)無条件生成モデルから条件推論を行うのが困難である。
これらの課題に対処するために,DiffPuterを提案する。DiffPuterは,データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせて調整された拡散モデルである。
DiffPuterは拡散モデルを反復的に訓練し、欠落したデータと観測されたデータの結合分布を学習し、正確な条件付きサンプリングを行い、修正された逆サンプリング戦略を用いて欠落した値を更新する。
DiffPuterのトレーニングステップは,データ密度の最大推定値(M-step)に対応し,サンプリングステップは期待されたA Posterioriの推定値(E-step)を表す。
10の多様なデータセットにわたる大規模な実験と、17の異なる計算方法との比較は、DiffPuterの優れたパフォーマンスを示している。
特にDiffPuterは、最も競争力のある既存の方法と比較して、MAEの6.94%、RMSEの4.78%の平均的な改善を実現している。
関連論文リスト
- Discrete vs. Continuous Trade-offs for Generative Models [0.0]
本研究は拡散確率モデル(DDPM)の理論的および実践的基礎を探求する。
プロセスとブラウン運動を利用して複雑なデータ分布をモデル化するDDPMとスコアベース生成モデル。
論文 参考訳(メタデータ) (2024-12-26T08:14:27Z) - SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。
このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。
経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文 参考訳(メタデータ) (2024-07-09T08:26:39Z) - An Expectation-Maximization Algorithm for Training Clean Diffusion Models from Corrupted Observations [21.411327264448058]
本稿では, 予測最大化(EM)手法を提案し, 劣化した観測から拡散モデルを訓練する。
本手法は, 既知拡散モデル(E-step)を用いた劣化データからのクリーン画像の再構成と, これらの再構成(M-step)に基づく拡散モデル重みの精製とを交互に行う。
この反復過程は、学習された拡散モデルを真のクリーンなデータ分布に徐々に収束させる。
論文 参考訳(メタデータ) (2024-07-01T07:00:17Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Data Augmentation for Seizure Prediction with Generative Diffusion Model [26.967247641926814]
重症度予測は患者の生活改善に非常に重要である。
初期データと中間データの間の深刻な不均衡問題は、依然として大きな課題となっている。
データ拡張は、この問題を解決するための直感的な方法です。
DiffEEGと呼ばれる拡散モデルを用いた新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T05:44:53Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。