論文の概要: A Sobering Look at Tabular Data Generation via Probabilistic Circuits
- arxiv url: http://arxiv.org/abs/2603.23016v1
- Date: Tue, 24 Mar 2026 10:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.421873
- Title: A Sobering Look at Tabular Data Generation via Probabilistic Circuits
- Title(参考訳): 確率回路によるタブラリデータ生成のソベリング
- Authors: Davide Scassola, Dylan Ponsford, Adrián Javaloy, Sebastiano Saccani, Luca Bortolussi, Henry Gouk, Antonio Vergari,
- Abstract要約: タブラルデータはテキストや画像よりも生成が難しい。
拡散ベースのモデルは現在の最先端(SotA)モデルクラスである。
ディープ確率回路(PC)は、コストのごく一部でSotAモデルに競争力または優れた性能を提供する。
- 参考スコア(独自算出の注目度): 20.66441498486505
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tabular data is more challenging to generate than text and images, due to its heterogeneous features and much lower sample sizes. On this task, diffusion-based models are the current state-of-the-art (SotA) model class, achieving almost perfect performance on commonly used benchmarks. In this paper, we question the perception of progress for tabular data generation. First, we highlight the limitations of current protocols to evaluate the fidelity of generated data, and advocate for alternative ones. Next, we revisit a simple baseline -- hierarchical mixture models in the form of deep probabilistic circuits (PCs) -- which delivers competitive or superior performance to SotA models for a fraction of the cost. PCs are the generative counterpart of decision forests, and as such can natively handle heterogeneous data as well as deliver tractable probabilistic generation and inference. Finally, in a rigorous empirical analysis we show that the apparent saturation of progress for SotA models is largely due to the use of inadequate metrics. As such, we highlight that there is still much to be done to generate realistic tabular data. Code available at https://github.com/april-tools/tabpc.
- Abstract(参考訳): タブラルデータは、その異質な特徴とはるかに低いサンプルサイズのために、テキストや画像よりも生成が難しい。
このタスクでは、拡散ベースのモデルは現在の最先端(SotA)モデルクラスであり、一般的に使用されるベンチマークでほぼ完璧なパフォーマンスを達成する。
本稿では,表型データ生成の進展に対する認識に疑問を呈する。
まず、生成されたデータの忠実度を評価するための現在のプロトコルの限界を強調し、代替プロトコルを提唱する。
次に、単純なベースライン(階層的混合モデル)を深層確率回路(PC)の形で再検討し、コストのごく一部でSotAモデルに競争力または優れた性能を提供する。
PCは意思決定の森の原型であり、不均一なデータをネイティブに扱うことができ、また、抽出可能な確率的生成と推論を提供することができる。
最後に、厳密な実証分析において、SotAモデルの進行の明らかな飽和は、主に不適切なメトリクスの使用によるものであることを示す。
そのため、現実的な表データを生成するにはまだまだ多くのことが必要だと強調する。
コードはhttps://github.com/april-tools/tabpc.comで公開されている。
関連論文リスト
- Impugan: Learning Conditional Generative Models for Robust Data Imputation [0.21847754147782886]
Impuganは、欠落した値を計算し、異種データセットを統合するための条件付きジェネレーティブ・アドバイサル・ネットワーク(cGAN)である。
推論中、ジェネレータは、利用可能な特徴から欠落したエントリを再構成し、識別器は、インプットされたデータと真を区別してリアリズムを強制する。
論文 参考訳(メタデータ) (2025-12-05T18:46:33Z) - TABFAIRGDT: A Fast Fair Tabular Data Generator using Autoregressive Decision Trees [11.0044761900691]
本稿では,自己回帰決定木を用いた公正な合成データ生成手法であるTABFAIRGDTを紹介する。
ベンチマークフェアネスデータセット上でTABFAIRGDTを評価し,SOTA(State-of-the-art)深部生成モデルよりも優れていることを示す。
注目すべきなのは、TABFAIRGDTは、さまざまなデータセットサイズで、最速のSOTAベースラインよりも平均72%のスピードアップを実現していることだ。
論文 参考訳(メタデータ) (2025-09-24T09:35:52Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Generative Forests [23.554594285885273]
私たちは、表データという最も一般的な形式のデータのうちの1つを表わすデータのための生成AIに焦点を合わせています。
本稿では,このような課題に適合する森林モデルの新しい強力なクラスと,強力な収束保証を備えた簡単なトレーニングアルゴリズムを提案する。
これらのタスクに関する追加実験により、我々のモデルは、多種多様な技術手法に対する優れた競争相手になり得ることが判明した。
論文 参考訳(メタデータ) (2023-08-07T14:58:53Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。