論文の概要: Unleashing the Potential of Diffusion Models for Incomplete Data Imputation
- arxiv url: http://arxiv.org/abs/2405.20690v1
- Date: Fri, 31 May 2024 08:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:07:03.095984
- Title: Unleashing the Potential of Diffusion Models for Incomplete Data Imputation
- Title(参考訳): 不完全なデータインプットのための拡散モデルの可能性
- Authors: Hengrui Zhang, Liancheng Fang, Philip S. Yu,
- Abstract要約: 本稿では,データ計算の欠如に対する反復的手法であるDiffPuterを紹介する。
欠損したデータをモデルトレーニング中に更新可能な隠れ変数として扱うことで、欠落したデータ計算タスクをEM問題として扱う。
DiffPuterは,最も競争力のある既存手法と比較して,MAEの8.10%,RMSEの5.64%の平均改善を実現している。
- 参考スコア(独自算出の注目度): 41.615558688230216
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces DiffPuter, an iterative method for missing data imputation that leverages the Expectation-Maximization (EM) algorithm and Diffusion Models. By treating missing data as hidden variables that can be updated during model training, we frame the missing data imputation task as an EM problem. During the M-step, DiffPuter employs a diffusion model to learn the joint distribution of both the observed and currently estimated missing data. In the E-step, DiffPuter re-estimates the missing data based on the conditional probability given the observed data, utilizing the diffusion model learned in the M-step. Starting with an initial imputation, DiffPuter alternates between the M-step and E-step until convergence. Through this iterative process, DiffPuter progressively refines the complete data distribution, yielding increasingly accurate estimations of the missing data. Our theoretical analysis demonstrates that the unconditional training and conditional sampling processes of the diffusion model align precisely with the objectives of the M-step and E-step, respectively. Empirical evaluations across 10 diverse datasets and comparisons with 16 different imputation methods highlight DiffPuter's superior performance. Notably, DiffPuter achieves an average improvement of 8.10% in MAE and 5.64% in RMSE compared to the most competitive existing method.
- Abstract(参考訳): 本稿では,DiffPuterについて紹介する。DiffPuterは期待最大化(EM)アルゴリズムと拡散モデルを利用するデータ計算のイテレーティブな手法である。
欠損したデータをモデルトレーニング中に更新可能な隠れ変数として扱うことで、欠落したデータ計算タスクをEM問題として扱う。
M段階の間、DiffPuterは拡散モデルを用いて観測されたデータと現在推定されているデータの両方の結合分布を学習する。
E-stepでは、DiffPuterは、M-stepで学習した拡散モデルを利用して、観測されたデータから条件付き確率に基づいて、欠落したデータを再推定する。
最初の計算から始めて、DiffPuterは収束するまでMステップとEステップを交互に切り替える。
この反復的なプロセスを通じて、DiffPuterは完全なデータ分布を徐々に洗練し、欠落したデータのより正確な推定を行う。
理論解析により, 拡散モデルの非条件学習と条件抽出は, それぞれMステップとEステップの目的と正確に一致していることが示された。
10の多様なデータセットに対する実証的な評価と、16の異なる計算方法との比較は、DiffPuterの優れたパフォーマンスを示している。
特にDiffPuterは、最も競争力のある既存の方法と比較して、MAEの8.10%、RMSEの5.64%の平均的な改善を実現している。
関連論文リスト
- SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。
このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。
経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文 参考訳(メタデータ) (2024-07-09T08:26:39Z) - An Expectation-Maximization Algorithm for Training Clean Diffusion Models from Corrupted Observations [21.411327264448058]
本稿では, 予測最大化(EM)手法を提案し, 劣化した観測から拡散モデルを訓練する。
本手法は, 既知拡散モデル(E-step)を用いた劣化データからのクリーン画像の再構成と, これらの再構成(M-step)に基づく拡散モデル重みの精製とを交互に行う。
この反復過程は、学習された拡散モデルを真のクリーンなデータ分布に徐々に収束させる。
論文 参考訳(メタデータ) (2024-07-01T07:00:17Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Data Augmentation for Seizure Prediction with Generative Diffusion Model [26.967247641926814]
重症度予測は患者の生活改善に非常に重要である。
初期データと中間データの間の深刻な不均衡問題は、依然として大きな課題となっている。
データ拡張は、この問題を解決するための直感的な方法です。
DiffEEGと呼ばれる拡散モデルを用いた新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T05:44:53Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。