論文の概要: DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model
- arxiv url: http://arxiv.org/abs/2403.13863v1
- Date: Wed, 20 Mar 2024 08:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:28:52.666643
- Title: DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model
- Title(参考訳): DiffImpute:拡散確率モデルによる語彙データ計算
- Authors: Yizhu Wen, Kai Yi, Jing Ke, Yiqing Shen,
- Abstract要約: DiffImputeという新しい拡散確率モデル(DDPM)を提案する。
既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成する。
Missing Completely At Random (MCAR) と Missing At Random (MAR) の様々な設定に適用できる。
- 参考スコア(独自算出の注目度): 9.908561639396273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data plays a crucial role in various domains but often suffers from missing values, thereby curtailing its potential utility. Traditional imputation techniques frequently yield suboptimal results and impose substantial computational burdens, leading to inaccuracies in subsequent modeling tasks. To address these challenges, we propose DiffImpute, a novel Denoising Diffusion Probabilistic Model (DDPM). Specifically, DiffImpute is trained on complete tabular datasets, ensuring that it can produce credible imputations for missing entries without undermining the authenticity of the existing data. Innovatively, it can be applied to various settings of Missing Completely At Random (MCAR) and Missing At Random (MAR). To effectively handle the tabular features in DDPM, we tailor four tabular denoising networks, spanning MLP, ResNet, Transformer, and U-Net. We also propose Harmonization to enhance coherence between observed and imputed data by infusing the data back and denoising them multiple times during the sampling stage. To enable efficient inference while maintaining imputation performance, we propose a refined non-Markovian sampling process that works along with Harmonization. Empirical evaluations on seven diverse datasets underscore the prowess of DiffImpute. Specifically, when paired with the Transformer as the denoising network, it consistently outperforms its competitors, boasting an average ranking of 1.7 and the most minimal standard deviation. In contrast, the next best method lags with a ranking of 2.8 and a standard deviation of 0.9. The code is available at https://github.com/Dendiiiii/DiffImpute.
- Abstract(参考訳): タブラルデータは、様々な領域において重要な役割を果たすが、しばしば欠落する値に悩まされるため、潜在的な効用は減少する。
従来の計算手法は、しばしば準最適結果をもたらし、かなりの計算負担を課し、その後のモデリングタスクにおいて不正確な結果をもたらす。
これらの課題に対処するため、我々はDiffImputeという新しい拡散確率モデル(DDPM)を提案する。
具体的には、DiffImputeは完全な表形式のデータセットに基づいてトレーニングされており、既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成することができる。
革新的には、MAR(Missing Completely At Random)とMAR(Missing At Random)の様々な設定に適用できる。
MLP, ResNet, Transformer, U-Net にまたがる4つの表型 denoising ネットワークを, DDPM の表型特徴を効果的に扱えるように調整する。
また,観測データとインプットデータのコヒーレンスを高めるためのハーモニゼーションを提案する。
計算性能を維持しながら効率的な推論を可能にするため,ハーモナイゼーションと協調して動作する改良された非マルコフサンプリングプロセスを提案する。
7つの多様なデータセットに関する実証的な評価は、DiffImputeの長所を浮き彫りにした。
具体的には、Transformerをデノナイジングネットワークとして組み合わせると、平均1.7のランクと最も最小限の標準偏差を誇って、競争相手を一貫して上回っている。
対照的に、次の最良の方法は、ランクが2.8で標準偏差が0.9の遅延である。
コードはhttps://github.com/Dendiiiii/DiffImpute.comで公開されている。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - SEMRes-DDPM: Residual Network Based Diffusion Modelling Applied to
Imbalanced Data [9.969882349165745]
データマイニングと機械学習の分野では、一般的に使われている分類モデルは、不均衡なデータで効果的に学習することはできない。
古典的なオーバーサンプリング手法の多くは、データのローカル情報のみに焦点を当てたSMOTE技術に基づいている。
本稿では,SEMRes-DDPMのオーバーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T14:01:04Z) - Double Descent and Overfitting under Noisy Inputs and Distribution Shift for Linear Denoisers [3.481985817302898]
教師付き denoising を研究する上での懸念は,テスト分布からのノイズレストレーニングデータが常に存在するとは限らないことだ。
そこで本研究では,分散シフト下での教師付きノイズ除去とノイズインプット回帰について検討した。
論文 参考訳(メタデータ) (2023-05-26T22:41:40Z) - UDPM: Upsampling Diffusion Probabilistic Models [33.51145642279836]
拡散確率モデル(DDPM、Denoising Diffusion Probabilistic Models)は近年注目されている。
DDPMは逆プロセスを定義することによって複雑なデータ分布から高品質なサンプルを生成する。
生成逆数ネットワーク(GAN)とは異なり、拡散モデルの潜伏空間は解釈できない。
本研究では,デノナイズ拡散過程をUDPM(Upsampling Diffusion Probabilistic Model)に一般化することを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:25:14Z) - On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。
そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。
キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文 参考訳(メタデータ) (2023-02-21T14:14:40Z) - Confidence-based Reliable Learning under Dual Noises [46.45663546457154]
ディープニューラルネットワーク(DNN)は、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
しかし、オープンワールドから収集されたデータはノイズによって必然的に汚染され、学習されたモデルの有効性を著しく損なう可能性がある。
データノイズ下でDNNを確実に訓練する様々な試みがなされているが、ラベルに存在するノイズと画像に存在するノイズを別々に考慮している。
この作業は、ジョイント(イメージ、ラベル)ノイズの下での信頼性学習のための、最初の統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-10T07:50:34Z) - Robust Face Anti-Spoofing with Dual Probabilistic Modeling [49.14353429234298]
本稿では、DPM-LQ(ラベル品質認識学習)とDPM-DQ(データ品質認識学習)という2つの専用モジュールを備えたDPM(Dual Probabilistic Modeling)という統合フレームワークを提案する。
DPM-LQは、ノイズのあるセマンティックラベルの分布に過度に適合することなく、ロバストな特徴表現を生成することができる。
DPM-DQは、その品質分布に基づいてノイズデータの予測信頼度を補正することにより、推論中のFalse Reject'およびFalse Accept'からデータノイズを除去することができる。
論文 参考訳(メタデータ) (2022-04-27T03:44:18Z) - Estimating High Order Gradients of the Data Distribution by Denoising [81.24581325617552]
スコアマッチングを復調することにより、データ密度の第1次微分を効率的に推定することができる。
サンプルからデータ密度の高次微分(スコア)を直接推定する手法を提案する。
論文 参考訳(メタデータ) (2021-11-08T18:59:23Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。