論文の概要: MissDiff: Training Diffusion Models on Tabular Data with Missing Values
- arxiv url: http://arxiv.org/abs/2307.00467v1
- Date: Sun, 2 Jul 2023 03:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:54:44.029099
- Title: MissDiff: Training Diffusion Models on Tabular Data with Missing Values
- Title(参考訳): MissDiff: 失敗値を持つ語彙データに基づく拡散モデルのトレーニング
- Authors: Yidong Ouyang, Liyan Xie, Chongxuan Li, Guang Cheng
- Abstract要約: この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
- 参考スコア(独自算出の注目度): 29.894691645801597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diffusion model has shown remarkable performance in modeling data
distributions and synthesizing data. However, the vanilla diffusion model
requires complete or fully observed data for training. Incomplete data is a
common issue in various real-world applications, including healthcare and
finance, particularly when dealing with tabular datasets. This work presents a
unified and principled diffusion-based framework for learning from data with
missing values under various missing mechanisms. We first observe that the
widely adopted "impute-then-generate" pipeline may lead to a biased learning
objective. Then we propose to mask the regression loss of Denoising Score
Matching in the training phase. We prove the proposed method is consistent in
learning the score of data distributions, and the proposed training objective
serves as an upper bound for the negative likelihood in certain cases. The
proposed framework is evaluated on multiple tabular datasets using realistic
and efficacious metrics and is demonstrated to outperform state-of-the-art
diffusion model on tabular data with "impute-then-generate" pipeline by a large
margin.
- Abstract(参考訳): 拡散モデルはデータ分布のモデル化とデータの合成において顕著な性能を示した。
しかし、バニラ拡散モデルは、訓練のために完全なまたは完全な観測データを必要とする。
不完全なデータは、医療や金融、特に表形式のデータセットを扱う場合など、さまざまな現実世界のアプリケーションで一般的な問題である。
本研究は,様々な欠落メカニズムの下で値の欠落したデータから学習するための統一的かつ原理的な拡散ベースフレームワークを提案する。
まず,広く採用されている"impute-then-generate"パイプラインが,偏りのある学習目標につながる可能性があることを観察した。
次に, 学習段階における発声スコアマッチングの回帰損失を隠蔽する。
提案手法は,データ分布のスコアの学習に一貫性があることを実証し,ある場合において,提案手法が負の確率の上限となることを示す。
提案手法は, 実効性と有効性のある指標を用いて複数の表層データセット上で評価し, 「入出力」パイプラインを用いた表層データ上での「最先端拡散モデル」を大きなマージンで上回ることを示す。
関連論文リスト
- Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Self-Supervision Improves Diffusion Models for Tabular Data Imputation [20.871219616589986]
本稿では,自己教師型計算拡散モデル (SimpDM for brevity) という高度な拡散モデルを提案する。
ノイズに対する感度を緩和するために、モデルを規則化し、一貫した安定な計算予測を保証する自己教師付きアライメント機構を導入する。
我々はまた、SimpDM内で慎重に設計された状態依存データ拡張戦略を導入し、限られたデータを扱う際の拡散モデルの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-25T13:06:30Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Diffusion models for missing value imputation in tabular data [10.599563005836066]
機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。
本稿では,タブラルデータに対する連続スコアベース拡散モデル (CSDI_T) と呼ばれる拡散モデル手法を提案する。
分類変数と数値変数を同時に処理するために, ワンホット符号化, アナログビット符号化, 特徴トークン化という3つの手法を検討した。
論文 参考訳(メタデータ) (2022-10-31T08:13:26Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Learn from Unpaired Data for Image Restoration: A Variational Bayes
Approach [18.007258270845107]
境界分布から抽出したデータから結合確率密度関数を学習するための深層生成法 LUD-VAE を提案する。
本稿では,LUD-VAEによって生成された合成データを用いて,実世界の画像認識と超分解能タスクに適用し,モデルを訓練する。
論文 参考訳(メタデータ) (2022-04-21T13:27:17Z) - Training Deep Normalizing Flow Models in Highly Incomplete Data
Scenarios with Prior Regularization [13.985534521589257]
ハイパウシティシナリオにおけるデータ分布の学習を容易にする新しいフレームワークを提案する。
提案手法は,不完全データから学習過程を協調最適化タスクとして行うことに由来する。
論文 参考訳(メタデータ) (2021-04-03T20:57:57Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。