論文の概要: STaSy: Score-based Tabular data Synthesis
- arxiv url: http://arxiv.org/abs/2210.04018v4
- Date: Mon, 29 May 2023 06:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:23:31.850305
- Title: STaSy: Score-based Tabular data Synthesis
- Title(参考訳): stasy:スコアベースの表データ合成
- Authors: Jayoung Kim, Chaejeong Lee, Noseong Park
- Abstract要約: Score-based Tabular data synthesis (STaSy) という新しいモデルを提案する。
私たちのトレーニング戦略には、セルフペースの学習技術と微調整戦略が含まれています。
実験では,タスク依存評価や多様性の観点から,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 10.292096717484698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data synthesis is a long-standing research topic in machine learning.
Many different methods have been proposed over the past decades, ranging from
statistical methods to deep generative methods. However, it has not always been
successful due to the complicated nature of real-world tabular data. In this
paper, we present a new model named Score-based Tabular data Synthesis (STaSy)
and its training strategy based on the paradigm of score-based generative
modeling. Despite the fact that score-based generative models have resolved
many issues in generative models, there still exists room for improvement in
tabular data synthesis. Our proposed training strategy includes a self-paced
learning technique and a fine-tuning strategy, which further increases the
sampling quality and diversity by stabilizing the denoising score matching
training. Furthermore, we also conduct rigorous experimental studies in terms
of the generative task trilemma: sampling quality, diversity, and time. In our
experiments with 15 benchmark tabular datasets and 7 baselines, our method
outperforms existing methods in terms of task-dependant evaluations and
diversity. Code is available at https://github.com/JayoungKim408/STaSy.
- Abstract(参考訳): タブラルデータ合成は機械学習における長年の研究トピックである。
統計手法から深層生成法まで、過去数十年にわたって様々な方法が提案されてきた。
しかし、実世界の表データの複雑な性質のため、必ずしも成功しなかった。
本稿では,スコアベース表データ合成(stasy)と呼ばれる新しいモデルと,スコアベース生成モデリングのパラダイムに基づく学習戦略を提案する。
スコアベースの生成モデルが生成モデルで多くの問題を解決したという事実にもかかわらず、表データ合成の改善の余地はまだ残っている。
提案したトレーニング戦略には,自己評価学習手法と微調整戦略が組み込まれており,復調スコアマッチングトレーニングを安定化することにより,サンプリング品質と多様性をさらに向上させる。
さらに, 生成的タスクのトリレンマとして, サンプリング品質, 多様性, 時間について, 厳密な実験を行った。
15のベンチマーク表と7のベースラインを用いた実験では,タスク依存評価や多様性の観点から既存手法よりも優れていた。
コードはhttps://github.com/JayoungKim408/STaSyで入手できる。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Efficient Classification with Counterfactual Reasoning and Active
Learning [4.708737212700907]
CCRALと呼ばれる手法は、因果推論と、元のトレーニングサンプルの反事実サンプルの学習と、不確実性の領域に基づいて有用な反事実サンプルを選択するアクティブラーニングを組み合わせたものである。
実験の結果, CCRALは精度とAUCの点で, ベースラインよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-25T12:03:40Z) - Contemporary Symbolic Regression Methods and their Relative Performance [5.285811942108162]
本研究では,252種類の回帰問題に対して,14のシンボル回帰法と7つの機械学習法を評価する。
実世界のデータセットでは、各手法が低いエラーと低い複雑さでモデルを学習する能力をベンチマークする。
合成問題に対して,様々なレベルのノイズが存在する場合に,各手法の正確な解を求める能力を評価する。
論文 参考訳(メタデータ) (2021-07-29T22:12:59Z) - OCT-GAN: Neural ODE-based Conditional Tabular GANs [8.062118111791495]
ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。
我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
論文 参考訳(メタデータ) (2021-05-31T13:58:55Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。