論文の概要: Self-Supervision Improves Diffusion Models for Tabular Data Imputation
- arxiv url: http://arxiv.org/abs/2407.18013v1
- Date: Thu, 25 Jul 2024 13:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:58:54.124698
- Title: Self-Supervision Improves Diffusion Models for Tabular Data Imputation
- Title(参考訳): 自己スーパービジョンによるタブラルデータインプットの拡散モデルの改善
- Authors: Yixin Liu, Thalaiyasingam Ajanthan, Hisham Husain, Vu Nguyen,
- Abstract要約: 本稿では,自己教師型計算拡散モデル (SimpDM for brevity) という高度な拡散モデルを提案する。
ノイズに対する感度を緩和するために、モデルを規則化し、一貫した安定な計算予測を保証する自己教師付きアライメント機構を導入する。
我々はまた、SimpDM内で慎重に設計された状態依存データ拡張戦略を導入し、限られたデータを扱う際の拡散モデルの堅牢性を高める。
- 参考スコア(独自算出の注目度): 20.871219616589986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ubiquity of missing data has sparked considerable attention and focus on tabular data imputation methods. Diffusion models, recognized as the cutting-edge technique for data generation, demonstrate significant potential in tabular data imputation tasks. However, in pursuit of diversity, vanilla diffusion models often exhibit sensitivity to initialized noises, which hinders the models from generating stable and accurate imputation results. Additionally, the sparsity inherent in tabular data poses challenges for diffusion models in accurately modeling the data manifold, impacting the robustness of these models for data imputation. To tackle these challenges, this paper introduces an advanced diffusion model named Self-supervised imputation Diffusion Model (SimpDM for brevity), specifically tailored for tabular data imputation tasks. To mitigate sensitivity to noise, we introduce a self-supervised alignment mechanism that aims to regularize the model, ensuring consistent and stable imputation predictions. Furthermore, we introduce a carefully devised state-dependent data augmentation strategy within SimpDM, enhancing the robustness of the diffusion model when dealing with limited data. Extensive experiments demonstrate that SimpDM matches or outperforms state-of-the-art imputation methods across various scenarios.
- Abstract(参考訳): 欠落したデータの多様さが大きな注目を集め、表形式のデータ計算方法に焦点が当てられている。
データ生成の最先端技術として認識されている拡散モデルは、表形式のデータ計算タスクにおいて有意なポテンシャルを示す。
しかしながら、多様性の追求において、バニラ拡散モデルはしばしば初期化ノイズに対する感度を示し、モデルが安定かつ正確な計算結果を生成するのを妨げる。
さらに、表形式のデータに固有の空間性は、データ多様体を正確にモデル化する際の拡散モデルの課題を生じさせ、データ計算のためのこれらのモデルの堅牢性に影響を与える。
これらの課題に対処するため,本稿では,表型データ計算タスクに特化して,自己教師型インパルス拡散モデル(SimpDM)という高度な拡散モデルを提案する。
ノイズに対する感度を緩和するために、モデルを規則化し、一貫した安定な計算予測を保証する自己教師付きアライメント機構を導入する。
さらに,SimpDM内部で慎重に考案された状態依存型データ拡張戦略を導入し,限られたデータを扱う際の拡散モデルの堅牢性を高める。
大規模な実験により、SimpDMは様々なシナリオで最先端の計算手法と一致または性能を向上することが示された。
関連論文リスト
- On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - State-observation augmented diffusion model for nonlinear assimilation [6.682908186025083]
生成モデルに基づく新しいデータ駆動同化アルゴリズムを提案する。
我々の状態観測拡張拡散モデル(SOAD)は、非線形物理モデルと観測モデルをより効率的に扱うように設計されている。
論文 参考訳(メタデータ) (2024-07-31T03:47:20Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - A Priori Uncertainty Quantification of Reacting Turbulence Closure Models using Bayesian Neural Networks [0.0]
反応流モデルにおける不確実性を捉えるためにベイズニューラルネットワークを用いる。
我々は、BNNモデルが、データ駆動クロージャモデルの不確実性の構造に関するユニークな洞察を提供することができることを示した。
このモデルの有効性は,様々な火炎条件と燃料からなるデータセットに対する事前評価によって実証される。
論文 参考訳(メタデータ) (2024-02-28T22:19:55Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Diffusion models for missing value imputation in tabular data [10.599563005836066]
機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。
本稿では,タブラルデータに対する連続スコアベース拡散モデル (CSDI_T) と呼ばれる拡散モデル手法を提案する。
分類変数と数値変数を同時に処理するために, ワンホット符号化, アナログビット符号化, 特徴トークン化という3つの手法を検討した。
論文 参考訳(メタデータ) (2022-10-31T08:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。