論文の概要: Tabular Data Generation using Binary Diffusion
- arxiv url: http://arxiv.org/abs/2409.13882v2
- Date: Mon, 28 Oct 2024 22:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:39:44.192909
- Title: Tabular Data Generation using Binary Diffusion
- Title(参考訳): バイナリ拡散を用いたタブラリデータ生成
- Authors: Vitaliy Kinakh, Slava Voloshynovskiy,
- Abstract要約: バイナリデータに特化して設計されたバイナリ拡散と呼ばれる新しい生成モデルを導入する。
提案手法では,広範囲な事前処理,複雑なノイズパラメータチューニング,大規模データセットの事前学習の必要性を排除している。
我々のモデルは、トラベル、アダルト所得、糖尿病のデータセットにおける既存の最先端モデルよりも優れています。
- 参考スコア(独自算出の注目度): 4.671529048076975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating synthetic tabular data is critical in machine learning, especially when real data is limited or sensitive. Traditional generative models often face challenges due to the unique characteristics of tabular data, such as mixed data types and varied distributions, and require complex preprocessing or large pretrained models. In this paper, we introduce a novel, lossless binary transformation method that converts any tabular data into fixed-size binary representations, and a corresponding new generative model called Binary Diffusion, specifically designed for binary data. Binary Diffusion leverages the simplicity of XOR operations for noise addition and removal and employs binary cross-entropy loss for training. Our approach eliminates the need for extensive preprocessing, complex noise parameter tuning, and pretraining on large datasets. We evaluate our model on several popular tabular benchmark datasets, demonstrating that Binary Diffusion outperforms existing state-of-the-art models on Travel, Adult Income, and Diabetes datasets while being significantly smaller in size. Code and models are available at: https://github.com/vkinakh/binary-diffusion-tabular
- Abstract(参考訳): 合成表データの生成は、特に実際のデータが制限されたり、センシティブな場合、機械学習において重要である。
従来の生成モデルは、混合データ型や様々な分布など、表データ特有の特徴のためにしばしば課題に直面し、複雑な前処理や大規模な事前学習モデルを必要とする。
本稿では,任意の表型データを固定サイズのバイナリ表現に変換する新しい無損失バイナリ変換法と,バイナリデータ用に特別に設計されたバイナリ拡散と呼ばれる新しい生成モデルを紹介する。
バイナリ拡散は、ノイズの追加と除去のためにXOR操作の単純さを活用し、訓練にバイナリクロスエントロピー損失を用いる。
提案手法では,広範囲な事前処理,複雑なノイズパラメータチューニング,大規模データセットの事前学習の必要性を排除している。
そこで我々は,Binary Diffusionが,Travel,Ault Income,Diabetesの既存の最先端モデルよりも大きく,サイズもかなり小さいことを実証した。
コードとモデルは、https://github.com/vkinakh/binary-diffusion-tabular.comで入手できる。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。
まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。
提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文 参考訳(メタデータ) (2023-07-02T03:49:47Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - An Introduction to Robust Graph Convolutional Networks [71.68610791161355]
本論文では, 誤りのある単一ビューあるいは複数ビューのデータに対して, 新たなロバストグラフ畳み込みニューラルネットワークを提案する。
従来のグラフ畳み込みネットワークにAutoencodersを介して余分なレイヤを組み込むことで、典型的なエラーモデルを明示的に特徴付けおよび処理します。
論文 参考訳(メタデータ) (2021-03-27T04:47:59Z) - Tabular Transformers for Modeling Multivariate Time Series [30.717890753132824]
タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。
本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。
学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
論文 参考訳(メタデータ) (2020-11-03T16:58:08Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - VAEM: a Deep Generative Model for Heterogeneous Mixed Type Data [16.00692074660383]
VAEMは2段階的に訓練された深層生成モデルである。
VAEMは、深層生成モデルをうまく展開できる現実世界のアプリケーションの範囲を広げることを示す。
論文 参考訳(メタデータ) (2020-06-21T23:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。