論文の概要: STaSy: Score-based Tabular data Synthesis
- arxiv url: http://arxiv.org/abs/2210.04018v1
- Date: Sat, 8 Oct 2022 13:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 15:07:03.129435
- Title: STaSy: Score-based Tabular data Synthesis
- Title(参考訳): stasy:スコアベースの表データ合成
- Authors: Jayoung Kim, Chaejeong Lee, Noseong Park
- Abstract要約: Score-based Tabular data synthesis (STaSy) と呼ばれる新しいモデルとスコアベース生成モデルに基づくトレーニング戦略を提案する。
提案するトレーニング戦略には,自己評価学習手法と微調整戦略が含まれており,サンプリング品質と多様性をさらに向上させる。
15のベンチマークデータセットと7つのベースラインを用いた実験では,タスク依存評価や多様性の観点から既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 10.292096717484698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data synthesis is a long-standing research topic in machine learning.
Many different methods have been proposed over the past decades, ranging from
statistical methods to deep generative methods. However, it has not always been
successful due to the complicated nature of real-world tabular data. In this
paper, we present a new model named Score-based Tabular data Synthesis (STaSy)
and its training strategy based on the paradigm of score-based generative
modeling. Despite the fact that score-based generative models have resolved
many issues in generative models, there still exists room for improvement in
tabular data synthesis. Our proposed training strategy includes a self-paced
learning technique and a fine-tuning strategy, which further increases the
sampling quality and diversity by stabilizing the denoising score matching
training. Furthermore, we also conduct rigorous experimental studies in terms
of the generative task trilemma: sampling quality, diversity, and time. In our
experiments with 15 benchmark tabular datasets and 7 baselines, our method
outperforms existing methods in terms of task-dependant evaluations and
diversity.
- Abstract(参考訳): タブラルデータ合成は機械学習における長年の研究トピックである。
統計手法から深層生成法まで、過去数十年にわたって様々な方法が提案されてきた。
しかし、実世界の表データの複雑な性質のため、必ずしも成功しなかった。
本稿では,スコアベース表データ合成(stasy)と呼ばれる新しいモデルと,スコアベース生成モデリングのパラダイムに基づく学習戦略を提案する。
スコアベースの生成モデルが生成モデルで多くの問題を解決したという事実にもかかわらず、表データ合成の改善の余地はまだ残っている。
提案したトレーニング戦略には,自己評価学習手法と微調整戦略が組み込まれており,復調スコアマッチングトレーニングを安定化することにより,サンプリング品質と多様性をさらに向上させる。
さらに, 生成的タスクのトリレンマとして, サンプリング品質, 多様性, 時間について, 厳密な実験を行った。
15のベンチマーク表と7のベースラインを用いた実験では,タスク依存評価や多様性の観点から既存手法よりも優れていた。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Efficient Classification with Counterfactual Reasoning and Active
Learning [4.708737212700907]
CCRALと呼ばれる手法は、因果推論と、元のトレーニングサンプルの反事実サンプルの学習と、不確実性の領域に基づいて有用な反事実サンプルを選択するアクティブラーニングを組み合わせたものである。
実験の結果, CCRALは精度とAUCの点で, ベースラインよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-25T12:03:40Z) - Contemporary Symbolic Regression Methods and their Relative Performance [5.285811942108162]
本研究では,252種類の回帰問題に対して,14のシンボル回帰法と7つの機械学習法を評価する。
実世界のデータセットでは、各手法が低いエラーと低い複雑さでモデルを学習する能力をベンチマークする。
合成問題に対して,様々なレベルのノイズが存在する場合に,各手法の正確な解を求める能力を評価する。
論文 参考訳(メタデータ) (2021-07-29T22:12:59Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。