論文の概要: Continuous Diffusion for Mixed-Type Tabular Data
- arxiv url: http://arxiv.org/abs/2312.10431v1
- Date: Sat, 16 Dec 2023 12:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:42:38.262022
- Title: Continuous Diffusion for Mixed-Type Tabular Data
- Title(参考訳): 混合型タブラリデータに対する連続拡散
- Authors: Markus Mueller, Kathrin Gruber, Dennis Fok
- Abstract要約: 本稿では,スコアマッチングとスコア決定を組み合わせることで,共通タイプの連続雑音分布を確保する。
また,特徴やデータタイプ毎に異なるノイズスケジュールの影響についても検討する。
その結果、我々のモデルは最先端のベンチマークモデルより一貫して優れていることがわかった。
- 参考スコア(独自算出の注目度): 3.146069168382982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based generative models (or diffusion models for short) have proven
successful across many domains in generating text and image data. However, the
consideration of mixed-type tabular data with this model family has fallen
short so far. Existing research mainly combines different diffusion processes
without explicitly accounting for the feature heterogeneity inherent to tabular
data. In this paper, we combine score matching and score interpolation to
ensure a common type of continuous noise distribution that affects both
continuous and categorical features alike. Further, we investigate the impact
of distinct noise schedules per feature or per data type. We allow for
adaptive, learnable noise schedules to ensure optimally allocated model
capacity and balanced generative capability. Results show that our model
consistently outperforms state-of-the-art benchmark models and that accounting
for heterogeneity within the noise schedule design boosts the sample quality.
- Abstract(参考訳): スコアベースの生成モデル(略して拡散モデル)は、テキストや画像データの生成において多くの領域で成功している。
しかし,このモデルファミリとの混合型表型データの検討は,今のところ不十分である。
既存の研究は主に、表データ固有の特徴の不均一性を明示的に考慮することなく、異なる拡散過程を組み合わせる。
本稿では,スコアマッチングとスコア補間を組み合わせることで,連続的特徴とカテゴリー的特徴の両方に影響を及ぼす一般的な連続的雑音分布を実現する。
さらに,特徴量やデータタイプごとに異なるノイズスケジュールが与える影響について検討する。
適応的、学習可能なノイズスケジュールにより、最適なモデルのキャパシティとバランスの取れた生成能力を確保する。
その結果,本モデルが最先端ベンチマークモデルを一貫して上回っており,ノイズスケジュール設計における不均一性を考慮するとサンプル品質が向上することがわかった。
関連論文リスト
- Robust Estimation of Causal Heteroscedastic Noise Models [7.568978862189266]
学生の$t$-distributionは、より小さなサンプルサイズと極端な値で、全体の分布形態を著しく変えることなく、サンプル変数をサンプリングすることの堅牢さで知られている。
我々の経験的評価は、我々の推定器はより堅牢で、合成ベンチマークと実ベンチマークの総合的な性能が向上していることを示している。
論文 参考訳(メタデータ) (2023-12-15T02:26:35Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data
Distribution [76.33705947080871]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Diffusion Random Feature Model [0.0]
本稿では,拡散モデルにインスパイアされた深部ランダム特徴モデルを提案する。
サンプルデータの分布と真の分布との一般化境界をスコアマッチングの特性を用いて導出する。
ファッションMNISTデータセットとインストゥルメンタルオーディオデータに基づいてサンプルを生成し,本研究の検証を行った。
論文 参考訳(メタデータ) (2023-10-06T17:59:05Z) - Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。
近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。
本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文 参考訳(メタデータ) (2023-06-16T16:30:39Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Diffusing Gaussian Mixtures for Generating Categorical Data [21.43283907118157]
本稿では,高品質なサンプル生成に着目した拡散モデルに基づく分類データの生成モデルを提案する。
評価手法は、分類データを生成するための異なる生成モデルの能力と限界を強調した。
論文 参考訳(メタデータ) (2023-03-08T14:55:32Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Harmonization with Flow-based Causal Inference [12.739380441313022]
本稿では, 医療データを調和させる構造因果モデル (SCM) に対して, 反実的推論を行う正規化フローに基づく手法を提案する。
我々は,この手法が最先端のアルゴリズムよりもドメイン間一般化に寄与することを示すために,複数の,大規模な実世界の医療データセットを評価した。
論文 参考訳(メタデータ) (2021-06-12T19:57:35Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。