Fugu-MT 論文翻訳(概要): Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees

論文の概要: Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees

arxiv url: http://arxiv.org/abs/2309.09968v1
Date: Mon, 18 Sep 2023 17:49:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 11:59:59.201060
Title: Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees
Title（参考訳）: 拡散とフローベース勾配ブーストツリーによる語彙データの生成と導入
Authors: Alexia Jolicoeur-Martineau, Kilian Fatras, Tal Kachman
Abstract要約: 本稿では,スコアベース拡散と条件付き流れマッチングを用いた混合型(連続型およびカテゴリー型)データの生成とインプットを行う新しい手法を提案する。エレガントであることに加えて、トレーニングデータセットが清潔であるか、欠落したデータによって汚染されているかのどちらかで、非常にリアルな合成データを生成し、また、多種多様なプラウティブルなデータ計算を生成することを実証的に示す。
参考スコア（独自算出の注目度）: 11.732842929815401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tabular data is hard to acquire and is subject to missing values. This paper proposes a novel approach to generate and impute mixed-type (continuous and categorical) tabular data using score-based diffusion and conditional flow matching. Contrary to previous work that relies on neural networks as function approximators, we instead utilize XGBoost, a popular Gradient-Boosted Tree (GBT) method. In addition to being elegant, we empirically show on various datasets that our method i) generates highly realistic synthetic data when the training dataset is either clean or tainted by missing data and ii) generates diverse plausible data imputations. Our method often outperforms deep-learning generation methods and can trained in parallel using CPUs without the need for a GPU. To make it easily accessible, we release our code through a Python library on PyPI and an R package on CRAN.
Abstract（参考訳）: 表データを取得するのが難しく、値が不足している。本稿では, スコアベース拡散と条件付き流れマッチングを用いて, 混合型(連続型, カテゴリー型) 表データを生成し, インプットする手法を提案する。ニューラルネットワークを関数近似器として使用する以前の作業とは対照的に、一般的な勾配ブーストツリー(gbt)メソッドであるxgboostを使用する。エレガントであることに加えて,我々の手法が示す様々なデータセットを実証的に示す。一訓練データセットが欠如データによりクリーン又は汚染されたとき、高度に現実的な合成データを生成すること。 ii) 多様な妥当なデータインプテーションを生成する。本手法は,gpuを必要とせず,cpuを用いて並列に学習することができる。簡単にアクセスできるようにするため、PyPI上のPythonライブラリとCRAN上のRパッケージを通じてコードをリリースします。

関連論文リスト

Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。融合法を LLM-Boost と PFN-Boost と命名した。多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文参考訳（メタデータ） (2025-02-04T19:30:41Z)
NRGBoost: Energy-Based Generative Boosted Trees [1.0878040851638]
本稿では,XGBoostのような人気ライブラリに実装された2次ブースティングに類似したエネルギーベース生成促進アルゴリズムを提案する。提案アルゴリズムは,任意の入力変数に対して推論タスクを処理可能な生成モデルを生成する一方で,GBDTと類似の識別性能を実現することができることを示す。同時に、サンプリングのためのニューラルネットワークベースのモデルとも競合することを示した。
論文参考訳（メタデータ） (2024-10-04T15:54:02Z)
Unmasking Trees for Tabular Data [0.0]
勾配型決定木を用いた表計算(および生成)の簡易な方法であるUnmaskingTreesを提案する。条件生成サブプロブレムを解決するために,木分類器のバランス木に適合するBaltoBotを提案する。従来の方法とは異なり、条件分布のパラメトリックな仮定は必要とせず、多重モーダル分布を持つ特徴を収容する。我々はついに2つのアプローチをメタアルゴリズムとみなし、TabPFNを用いた文脈内学習に基づく生成モデリングを実証した。
論文参考訳（メタデータ） (2024-07-08T04:15:43Z)
Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later [76.66498833720411]
K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
論文参考訳（メタデータ） (2024-07-03T16:38:57Z)
BUFF: Boosted Decision Tree based Ultra-Fast Flow matching [3.23055518616474]
タブラルデータ(Tabular data)は、高エネルギー物理学において最も頻繁に見られるタイプの1つである。我々は、条件付きフローマッチングと呼ばれる、ごく最近の生成モデルクラスを採用し、グラディエントブーストツリーの使用を統合化するために、異なる手法を採用する。我々は,ほとんどのハイレベルシミュレーションタスクのトレーニング時間と推論時間が,桁違いのスピードアップを実現することを実証する。
論文参考訳（メタデータ） (2024-04-28T15:31:20Z)
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。 T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-12-12T06:29:04Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。 TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文参考訳（メタデータ） (2022-07-05T07:17:43Z)
Hopular: Modern Hopfield Networks for Tabular Data [5.470026407471584]
中小データセットのための新しいディープラーニングアーキテクチャである"Hopular"を提案する。 Hopularは格納されたデータを使用して、フィーチャー機能、フィーチャーターゲット、サンプルサンプル依存関係を識別する。 1,000サンプル未満の小さなデータセットの実験では、HopularはGradient Boosting、Random Forests、SVM、特にいくつかのDeep Learningメソッドを超越している。
論文参考訳（メタデータ） (2022-06-01T17:57:44Z)
A Framework and Benchmark for Deep Batch Active Learning for Regression [2.093287944284448]
ラベル付きデータのバッチを適応的に選択する能動的学習法について検討した。本稿では,ネットワークに依存した)ベースカーネル,カーネル変換,選択メソッドからそのようなメソッドを構築するためのフレームワークを提案する。提案手法は,我々のベンチマークの最先端性,大規模データセットへのスケール,ネットワークアーキテクチャやトレーニングコードを調整することなく,アウト・オブ・ボックスで動作する。
論文参考訳（メタデータ） (2022-03-17T16:11:36Z)
OCT-GAN: Neural ODE-based Conditional Tabular GANs [8.062118111791495]
ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
論文参考訳（メタデータ） (2021-05-31T13:58:55Z)
Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文参考訳（メタデータ） (2021-05-29T08:39:57Z)
Heuristic Semi-Supervised Learning for Graph Generation Inspired by Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2020-06-10T14:48:48Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。