論文の概要: Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees
- arxiv url: http://arxiv.org/abs/2309.09968v1
- Date: Mon, 18 Sep 2023 17:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 11:59:59.201060
- Title: Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees
- Title(参考訳): 拡散とフローベース勾配ブーストツリーによる語彙データの生成と導入
- Authors: Alexia Jolicoeur-Martineau, Kilian Fatras, Tal Kachman
- Abstract要約: 本稿では,スコアベース拡散と条件付き流れマッチングを用いた混合型(連続型およびカテゴリー型)データの生成とインプットを行う新しい手法を提案する。
エレガントであることに加えて、トレーニングデータセットが清潔であるか、欠落したデータによって汚染されているかのどちらかで、非常にリアルな合成データを生成し、また、多種多様なプラウティブルなデータ計算を生成することを実証的に示す。
- 参考スコア(独自算出の注目度): 11.732842929815401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data is hard to acquire and is subject to missing values. This paper
proposes a novel approach to generate and impute mixed-type (continuous and
categorical) tabular data using score-based diffusion and conditional flow
matching. Contrary to previous work that relies on neural networks as function
approximators, we instead utilize XGBoost, a popular Gradient-Boosted Tree
(GBT) method. In addition to being elegant, we empirically show on various
datasets that our method i) generates highly realistic synthetic data when the
training dataset is either clean or tainted by missing data and ii) generates
diverse plausible data imputations. Our method often outperforms deep-learning
generation methods and can trained in parallel using CPUs without the need for
a GPU. To make it easily accessible, we release our code through a Python
library on PyPI and an R package on CRAN.
- Abstract(参考訳): 表データを取得するのが難しく、値が不足している。
本稿では, スコアベース拡散と条件付き流れマッチングを用いて, 混合型(連続型, カテゴリー型) 表データを生成し, インプットする手法を提案する。
ニューラルネットワークを関数近似器として使用する以前の作業とは対照的に、一般的な勾配ブーストツリー(gbt)メソッドであるxgboostを使用する。
エレガントであることに加えて,我々の手法が示す様々なデータセットを実証的に示す。
一 訓練データセットが欠如データによりクリーン又は汚染されたとき、高度に現実的な合成データを生成すること。
ii) 多様な妥当なデータインプテーションを生成する。
本手法は,gpuを必要とせず,cpuを用いて並列に学習することができる。
簡単にアクセスできるようにするため、PyPI上のPythonライブラリとCRAN上のRパッケージを通じてコードをリリースします。
関連論文リスト
- Unmasking Trees for Tabular Data [0.0]
勾配型決定木を用いた表計算(および生成)の簡易な方法であるUnmaskingTreesを提案する。
条件生成サブプロブレムを解決するために,木分類器のバランス木に適合するBaltoBotを提案する。
従来の方法とは異なり、条件分布のパラメトリックな仮定は必要とせず、多重モーダル分布を持つ特徴を収容する。
我々はついに2つのアプローチをメタアルゴリズムとみなし、TabPFNを用いた文脈内学習に基づく生成モデリングを実証した。
論文 参考訳(メタデータ) (2024-07-08T04:15:43Z) - BUFF: Boosted Decision Tree based Ultra-Fast Flow matching [3.23055518616474]
タブラルデータ(Tabular data)は、高エネルギー物理学において最も頻繁に見られるタイプの1つである。
我々は、条件付きフローマッチングと呼ばれる、ごく最近の生成モデルクラスを採用し、グラディエントブーストツリーの使用を統合化するために、異なる手法を採用する。
我々は,ほとんどのハイレベルシミュレーションタスクのトレーニング時間と推論時間が,桁違いのスピードアップを実現することを実証する。
論文 参考訳(メタデータ) (2024-04-28T15:31:20Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - TabPFN: A Transformer That Solves Small Tabular Classification Problems
in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。
TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。
提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文 参考訳(メタデータ) (2022-07-05T07:17:43Z) - Hopular: Modern Hopfield Networks for Tabular Data [5.470026407471584]
中小データセットのための新しいディープラーニングアーキテクチャである"Hopular"を提案する。
Hopularは格納されたデータを使用して、フィーチャー機能、フィーチャーターゲット、サンプルサンプル依存関係を識別する。
1,000サンプル未満の小さなデータセットの実験では、HopularはGradient Boosting、Random Forests、SVM、特にいくつかのDeep Learningメソッドを超越している。
論文 参考訳(メタデータ) (2022-06-01T17:57:44Z) - A Framework and Benchmark for Deep Batch Active Learning for Regression [2.093287944284448]
ラベル付きデータのバッチを適応的に選択する能動的学習法について検討した。
本稿では,ネットワークに依存した)ベースカーネル,カーネル変換,選択メソッドからそのようなメソッドを構築するためのフレームワークを提案する。
提案手法は,我々のベンチマークの最先端性,大規模データセットへのスケール,ネットワークアーキテクチャやトレーニングコードを調整することなく,アウト・オブ・ボックスで動作する。
論文 参考訳(メタデータ) (2022-03-17T16:11:36Z) - OCT-GAN: Neural ODE-based Conditional Tabular GANs [8.062118111791495]
ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。
我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
論文 参考訳(メタデータ) (2021-05-31T13:58:55Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。