論文の概要: XGenBoost: Synthesizing Small and Large Tabular Datasets with XGBoost
- arxiv url: http://arxiv.org/abs/2603.06904v1
- Date: Fri, 06 Mar 2026 21:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.390507
- Title: XGenBoost: Synthesizing Small and Large Tabular Datasets with XGBoost
- Title(参考訳): XGenBoost: XGBoostで小さくて大きなタブラルデータセットを合成する
- Authors: Jim Achterberg, Marcel Haas, Bram van Dijk, Marco Spruit,
- Abstract要約: 本稿では,XGBoostをベースとした生成モデルであるXGenBoostについて述べる。
提案したアーキテクチャは,従来のニューラルモデルやツリーベース生成モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.509907053583601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tree ensembles such as XGBoost are often preferred for discriminative tasks in mixed-type tabular data, due to their inductive biases, minimal hyperparameter tuning, and training efficiency. We argue that these qualities, when leveraged correctly, can make for better generative models as well. As such, we present XGenBoost, a pair of generative models based on XGBoost: i) a Denoising Diffusion Implicit Model (DDIM) with XGBoost as score-estimator suited for smaller datasets, and ii) a hierarchical autoregressive model whose conditionals are learned via XGBoost classifiers, suited for large-scale tabular synthesis. The architectures follow from the natural constraints imposed by tree-based learners, e.g., in the diffusion model, combining Gaussian and multinomial diffusion to leverage native categorical splits and avoid one-hot encoding while accurately modelling mixed data types. In the autoregressive model, we use a fixed-order factorization, a hierarchical classifier to impose ordinal inductive biases when modelling numerical features, and de-quantization based on empirical quantile functions to model the non-continuous nature of most real-world tabular datasets. Through two benchmarks, one containing smaller and the other larger datasets, we show that our proposed architectures outperform previous neural- and tree-based generative models for mixed-type tabular synthesis at lower training cost.
- Abstract(参考訳): XGBoostのようなツリーアンサンブルは、誘導バイアス、極小ハイパーパラメータチューニング、トレーニング効率のために、混合型表型データにおける識別タスクに好まれる。
これらの品質が正しく活用されれば、生成モデルの改善にも寄与する、と私たちは主張する。
そこで、XGBoostをベースとした生成モデルであるXGenBoostについて述べる。
一 小さいデータセットに適したスコア推定器としてXGBoostを付した拡散拡散入射モデル(DDIM)
二 大規模表層合成に適したXGBoost分類器を介して条件を学習する階層的自己回帰モデル。
これらのアーキテクチャは、拡散モデルにおいて木に基づく学習者が課す自然な制約、例えば、ガウスと多項拡散を組み合わせてネイティブなカテゴリー分割を活用し、混合データ型を正確にモデル化しながらワンホット符号化を回避する。
自己回帰モデルでは、数値的特徴をモデル化する際、直交的帰納的バイアスを課す定階分解、階層的分類器、実世界の表状データセットの連続しない性質をモデル化するために経験的量子関数に基づく非量子化を用いる。
2つのベンチマークで、ひとつはより小さく、もうひとつはより大規模なデータセットを含むもので、我々の提案したアーキテクチャは、より低いトレーニングコストで混合型表層合成のための従来のニューラルモデルとツリーベース生成モデルより優れていることを示す。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - A Hybrid of Generative and Discriminative Models Based on the
Gaussian-coupled Softmax Layer [5.33024001730262]
本稿では,1つのニューラルネットワークにおける識別モデルと生成モデルのハイブリッドを学習する手法を提案する。
提案手法を半教師付き学習と信頼性校正に適用できることを実証する。
論文 参考訳(メタデータ) (2023-05-10T05:48:22Z) - Deep incremental learning models for financial temporal tabular datasets
with distribution shifts [0.9790236766474201]
このフレームワークは、単純な基本的なビルディングブロック(決定木)を使用して、必要な複雑さの自己相似モデルを構築する。
我々は,NumeraiデータセットでトレーニングしたXGBoostモデルを用いて提案手法を実証し,異なるモデルスナップショット上での2層のXGBoostモデルの深部アンサンブルが高品質な予測を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T14:10:37Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。