論文の概要: Diffusion models for missing value imputation in tabular data
- arxiv url: http://arxiv.org/abs/2210.17128v1
- Date: Mon, 31 Oct 2022 08:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:49:53.542761
- Title: Diffusion models for missing value imputation in tabular data
- Title(参考訳): 表データにおける値の欠落に関する拡散モデル
- Authors: Shuhan Zheng, Nontawat Charoenphakdee
- Abstract要約: 機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。
本稿では,タブラルデータに対する連続スコアベース拡散モデル (CSDI_T) と呼ばれる拡散モデル手法を提案する。
分類変数と数値変数を同時に処理するために, ワンホット符号化, アナログビット符号化, 特徴トークン化という3つの手法を検討した。
- 参考スコア(独自算出の注目度): 10.599563005836066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing value imputation in machine learning is the task of estimating the
missing values in the dataset accurately using available information. In this
task, several deep generative modeling methods have been proposed and
demonstrated their usefulness, e.g., generative adversarial imputation
networks. Recently, diffusion models have gained popularity because of their
effectiveness in the generative modeling task in images, texts, audio, etc. To
our knowledge, less attention has been paid to the investigation of the
effectiveness of diffusion models for missing value imputation in tabular data.
Based on recent development of diffusion models for time-series data
imputation, we propose a diffusion model approach called "Conditional
Score-based Diffusion Models for Tabular data" (CSDI_T). To effectively handle
categorical variables and numerical variables simultaneously, we investigate
three techniques: one-hot encoding, analog bits encoding, and feature
tokenization. Experimental results on benchmark datasets demonstrated the
effectiveness of CSDI_T compared with well-known existing methods, and also
emphasized the importance of the categorical embedding techniques.
- Abstract(参考訳): 機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。
この課題では、いくつかの深層生成モデリング手法が提案され、その有用性を実証している。
近年,画像やテキスト,音声などにおける生成的モデリングタスクの有効性から,拡散モデルの人気が高まっている。
表データにおける値インプテーションの欠落に対する拡散モデルの有効性について,我々の知る限り,あまり注目されていない。
近年の時系列データインプテーションのための拡散モデルの開発に基づいて,「表データのための条件スコアに基づく拡散モデル」(csdi_t) と呼ばれる拡散モデル手法を提案する。
分類変数と数値変数を同時に扱うために, 1ホットエンコーディング, アナログビットエンコーディング, 特徴トークン化という3つの手法を検討した。
ベンチマーク実験の結果,CSDI_Tの有効性は既知の手法と比較して実証され,分類的埋め込み技術の重要性も強調された。
関連論文リスト
- A Priori Uncertainty Quantification of Reacting Turbulence Closure
Models using Bayesian Neural Networks [0.0]
反応流モデルにおける不確実性を捉えるためにベイズニューラルネットワークを用いる。
我々は、BNNモデルが、データ駆動クロージャモデルの不確実性の構造に関するユニークな洞察を提供することができることを示した。
このモデルの有効性は,様々な火炎条件と燃料からなるデータセットに対する事前評価によって実証される。
論文 参考訳(メタデータ) (2024-02-28T22:19:55Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in
Influence Estimation [58.20016784231991]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - EraseDiff: Erasing Data Influence in Diffusion Models [54.95692559939673]
拡散モデルのためのアンラーニングアルゴリズムを提案する。
提案アルゴリズムは, 広範に普及している拡散モデルから除去しながら, モデルの有用性, 有効性, 効率を保たせることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Deep Networks as Denoising Algorithms: Sample-Efficient Learning of
Diffusion Models in High-Dimensional Graphical Models [22.353510613540564]
生成モデルにおけるディープニューラルネットワークによるスコア関数の近似効率について検討する。
楽譜関数はしばしば変分推論法を用いてグラフィカルモデルでよく近似される。
深層ニューラルネットワークによってスコア関数が学習されるとき,拡散に基づく生成モデルに縛られた効率的なサンプル複雑性を提供する。
論文 参考訳(メタデータ) (2023-09-20T15:51:10Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - CSDI: Conditional Score-based Diffusion Models for Probabilistic Time
Series Imputation [107.63407690972139]
Conditional Score-based Diffusion Model for Imputation (CSDI) は、観測データに条件付きスコアベース拡散モデルを利用する新しい時系列計算法である。
CSDIは、一般的なパフォーマンスメトリクスの既存の確率論的計算方法よりも40-70%改善されている。
さらに、Cは最先端の決定論的計算法と比較して誤差を5-20%削減する。
論文 参考訳(メタデータ) (2021-07-07T22:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。