Fugu-MT 論文翻訳(概要): Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees

論文の概要: Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees

arxiv url: http://arxiv.org/abs/2309.09968v3
Date: Mon, 19 Feb 2024 21:48:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 20:50:04.660036
Title: Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees
Title（参考訳）: 拡散とフローベース勾配ブーストツリーによる語彙データの生成と導入
Authors: Alexia Jolicoeur-Martineau, Kilian Fatras, Tal Kachman
Abstract要約: タブラルデータは取得が困難で、値が失われる。本稿では,混合型(連続型および分類型)データの生成と計算のための新しいアプローチを提案する。スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,我々はXGBoostを採用する。
参考スコア（独自算出の注目度）: 11.732842929815401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tabular data is hard to acquire and is subject to missing values. This paper introduces a novel approach for generating and imputing mixed-type (continuous and categorical) tabular data utilizing score-based diffusion and conditional flow matching. In contrast to prior methods that rely on neural networks to learn the score function or the vector field, we adopt XGBoost, a widely used Gradient-Boosted Tree (GBT) technique. To test our method, we build one of the most extensive benchmarks for tabular data generation and imputation, containing 27 diverse datasets and 9 metrics. Through empirical evaluation across the benchmark, we demonstrate that our approach outperforms deep-learning generation methods in data generation tasks and remains competitive in data imputation. Notably, it can be trained in parallel using CPUs without requiring a GPU. Our Python and R code is available at https://github.com/SamsungSAILMontreal/ForestDiffusion.
Abstract（参考訳）: 表データを取得するのが難しく、値が不足している。本稿では, スコアベース拡散と条件付き流れマッチングを利用して, 混合型(連続型, カテゴリー型) 表データの生成と計算を行う手法を提案する。スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,広く使用されているグラディエントブーストツリー(GBT)技術であるXGBoostを採用する。提案手法をテストするために,27の多様なデータセットと9つのメトリクスを含む,表形式のデータ生成と計算のための最も広範なベンチマークを構築した。実験的な評価により,本手法がデータ生成タスクにおいて深層学習法より優れ,データ計算において競争力を維持していることを示す。特に、GPUを必要とせずに、CPUを使用して並列にトレーニングできる。 PythonとRのコードはhttps://github.com/SamsungSAILMontreal/ForestDiffusion.comから入手可能です。

関連論文リスト

Transformers Boost the Performance of Decision Trees on Tabular Data across Sample Sizes [135.68092471784516]
本稿では,大規模言語モデルと勾配ブースト決定木を融合させる,シンプルで軽量な手法を提案する。融合法を LLM-Boost と PFN-Boost と命名した。多数のベースラインとアンサンブルアルゴリズムに対して最先端の性能を示す。
論文参考訳（メタデータ） (2025-02-04T19:30:41Z)
NRGBoost: Energy-Based Generative Boosted Trees [1.0878040851638]
本稿では,XGBoostのような人気ライブラリに実装された2次ブースティングに類似したエネルギーベース生成促進アルゴリズムを提案する。提案アルゴリズムは,任意の入力変数に対して推論タスクを処理可能な生成モデルを生成する一方で,GBDTと類似の識別性能を実現することができることを示す。同時に、サンプリングのためのニューラルネットワークベースのモデルとも競合することを示した。
論文参考訳（メタデータ） (2024-10-04T15:54:02Z)
Unmasking Trees for Tabular Data [0.0]
勾配型決定木を用いた表計算(および生成)の簡易な方法であるUnmaskingTreesを提案する。条件生成サブプロブレムを解決するために,木分類器のバランス木に適合するBaltoBotを提案する。従来の方法とは異なり、条件分布のパラメトリックな仮定は必要とせず、多重モーダル分布を持つ特徴を収容する。我々はついに2つのアプローチをメタアルゴリズムとみなし、TabPFNを用いた文脈内学習に基づく生成モデリングを実証した。
論文参考訳（メタデータ） (2024-07-08T04:15:43Z)
Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later [76.66498833720411]
K$-nearest neighbors (KNN) はもともと,インスタンス間のセマンティックな類似性を捉えるために線形投影を学習するために設計されたものだ。意外なことに、SGDを用いたNAAの実装と次元減少のない実装は、表データの良好な性能をすでに達成しています。本稿では、損失関数、予測戦略、深いアーキテクチャなど、これらの改善の背景にある要因を分析して、論文を締めくくる。
論文参考訳（メタデータ） (2024-07-03T16:38:57Z)
BUFF: Boosted Decision Tree based Ultra-Fast Flow matching [3.23055518616474]
タブラルデータ(Tabular data)は、高エネルギー物理学において最も頻繁に見られるタイプの1つである。我々は、条件付きフローマッチングと呼ばれる、ごく最近の生成モデルクラスを採用し、グラディエントブーストツリーの使用を統合化するために、異なる手法を採用する。我々は,ほとんどのハイレベルシミュレーションタスクのトレーニング時間と推論時間が,桁違いのスピードアップを実現することを実証する。
論文参考訳（メタデータ） (2024-04-28T15:31:20Z)
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。 T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-12-12T06:29:04Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second [48.87527918630822]
トレーニングされたトランスフォーマーであるTabPFNは、小さなデータセットの教師付き分類を1秒以内で行うことができる。 TabPFNはコンテキスト内学習(ICL)を行い、ラベル付きサンプルのシーケンスを使用して予測を行う。提案手法は, 強化木よりも明らかに優れており, 230$times$ Speedupの複雑なAutoMLシステムと同等性能を示す。
論文参考訳（メタデータ） (2022-07-05T07:17:43Z)
Hopular: Modern Hopfield Networks for Tabular Data [5.470026407471584]
中小データセットのための新しいディープラーニングアーキテクチャである"Hopular"を提案する。 Hopularは格納されたデータを使用して、フィーチャー機能、フィーチャーターゲット、サンプルサンプル依存関係を識別する。 1,000サンプル未満の小さなデータセットの実験では、HopularはGradient Boosting、Random Forests、SVM、特にいくつかのDeep Learningメソッドを超越している。
論文参考訳（メタデータ） (2022-06-01T17:57:44Z)
A Framework and Benchmark for Deep Batch Active Learning for Regression [2.093287944284448]
ラベル付きデータのバッチを適応的に選択する能動的学習法について検討した。本稿では,ネットワークに依存した)ベースカーネル,カーネル変換,選択メソッドからそのようなメソッドを構築するためのフレームワークを提案する。提案手法は,我々のベンチマークの最先端性,大規模データセットへのスケール,ネットワークアーキテクチャやトレーニングコードを調整することなく,アウト・オブ・ボックスで動作する。
論文参考訳（メタデータ） (2022-03-17T16:11:36Z)
OCT-GAN: Neural ODE-based Conditional Tabular GANs [8.062118111791495]
ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
論文参考訳（メタデータ） (2021-05-31T13:58:55Z)
Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文参考訳（メタデータ） (2021-05-29T08:39:57Z)
Heuristic Semi-Supervised Learning for Graph Generation Inspired by Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2020-06-10T14:48:48Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。