論文の概要: Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees
- arxiv url: http://arxiv.org/abs/2309.09968v1
- Date: Mon, 18 Sep 2023 17:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 11:59:59.201060
- Title: Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees
- Title(参考訳): 拡散とフローベース勾配ブーストツリーによる語彙データの生成と導入
- Authors: Alexia Jolicoeur-Martineau, Kilian Fatras, Tal Kachman
- Abstract要約: 本稿では,スコアベース拡散と条件付き流れマッチングを用いた混合型(連続型およびカテゴリー型)データの生成とインプットを行う新しい手法を提案する。
エレガントであることに加えて、トレーニングデータセットが清潔であるか、欠落したデータによって汚染されているかのどちらかで、非常にリアルな合成データを生成し、また、多種多様なプラウティブルなデータ計算を生成することを実証的に示す。
- 参考スコア(独自算出の注目度): 11.732842929815401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is hard to acquire and is subject to missing values. This paper
proposes a novel approach to generate and impute mixed-type (continuous and
categorical) tabular data using score-based diffusion and conditional flow
matching. Contrary to previous work that relies on neural networks as function
approximators, we instead utilize XGBoost, a popular Gradient-Boosted Tree
(GBT) method. In addition to being elegant, we empirically show on various
datasets that our method i) generates highly realistic synthetic data when the
training dataset is either clean or tainted by missing data and ii) generates
diverse plausible data imputations. Our method often outperforms deep-learning
generation methods and can trained in parallel using CPUs without the need for
a GPU. To make it easily accessible, we release our code through a Python
library on PyPI and an R package on CRAN.
- Abstract(参考訳): 表データを取得するのが難しく、値が不足している。
本稿では, スコアベース拡散と条件付き流れマッチングを用いて, 混合型(連続型, カテゴリー型) 表データを生成し, インプットする手法を提案する。
ニューラルネットワークを関数近似器として使用する以前の作業とは対照的に、一般的な勾配ブーストツリー(gbt)メソッドであるxgboostを使用する。
エレガントであることに加えて,我々の手法が示す様々なデータセットを実証的に示す。
一 訓練データセットが欠如データによりクリーン又は汚染されたとき、高度に現実的な合成データを生成すること。
ii) 多様な妥当なデータインプテーションを生成する。
本手法は,gpuを必要とせず,cpuを用いて並列に学習することができる。
簡単にアクセスできるようにするため、PyPI上のPythonライブラリとCRAN上のRパッケージを通じてコードをリリースします。
関連論文リスト
- Okapi: Generalising Better by Making Statistical Matches Match [7.392460712829188]
オカピは、オンライン統計マッチングに基づく頑健な半教師あり学習のためのシンプルで効率的で汎用的な方法である。
提案手法では, 最寄りのマッチング手法を用いて, 整合性損失に対するクロスドメインビューを生成する。
経験的リスクの最小化を改善するために、余分な遅延のないデータを活用することは実際に可能であることを示す。
論文 参考訳(メタデータ) (2022-11-07T12:41:17Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - OCT-GAN: Neural ODE-based Conditional Tabular GANs [8.062118111791495]
ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。
我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
論文 参考訳(メタデータ) (2021-05-31T13:58:55Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Tabular Transformers for Modeling Multivariate Time Series [30.717890753132824]
タブラルデータセットは、データサイエンスの応用においてユビキタスである。その重要性から、最先端のディープラーニングアルゴリズムを適用して、その可能性を完全に解き放つことは自然なようだ。
本稿では,その階層構造を活用可能なグラフ時系列を表すニューラルネットワークモデルを提案する。
学習した表現を不正検出と合成データ生成に使用する合成クレジットカードトランザクションデータセットと、学習したエンコーディングを大気汚染物質濃度を予測するための実際の公害データセットの2つのデータセットで実証する。
論文 参考訳(メタデータ) (2020-11-03T16:58:08Z) - PyTorch Distributed: Experiences on Accelerating Data Parallel Training [11.393654219774444]
PyTorchは、ディープラーニングの研究や応用で広く使われている科学計算パッケージである。
本稿では,PyTorch分散データ並列モジュールの設計,実装,評価について述べる。
論文 参考訳(メタデータ) (2020-06-28T20:39:45Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。