Fugu-MT 論文翻訳(概要): STaSy: Score-based Tabular data Synthesis

論文の概要: STaSy: Score-based Tabular data Synthesis

arxiv url: http://arxiv.org/abs/2210.04018v4
Date: Mon, 29 May 2023 06:37:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 03:23:31.850305
Title: STaSy: Score-based Tabular data Synthesis
Title（参考訳）: stasy:スコアベースの表データ合成
Authors: Jayoung Kim, Chaejeong Lee, Noseong Park
Abstract要約: Score-based Tabular data synthesis (STaSy) という新しいモデルを提案する。私たちのトレーニング戦略には、セルフペースの学習技術と微調整戦略が含まれています。実験では,タスク依存評価や多様性の観点から,既存の手法よりも優れていた。
参考スコア（独自算出の注目度）: 10.292096717484698
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tabular data synthesis is a long-standing research topic in machine learning. Many different methods have been proposed over the past decades, ranging from statistical methods to deep generative methods. However, it has not always been successful due to the complicated nature of real-world tabular data. In this paper, we present a new model named Score-based Tabular data Synthesis (STaSy) and its training strategy based on the paradigm of score-based generative modeling. Despite the fact that score-based generative models have resolved many issues in generative models, there still exists room for improvement in tabular data synthesis. Our proposed training strategy includes a self-paced learning technique and a fine-tuning strategy, which further increases the sampling quality and diversity by stabilizing the denoising score matching training. Furthermore, we also conduct rigorous experimental studies in terms of the generative task trilemma: sampling quality, diversity, and time. In our experiments with 15 benchmark tabular datasets and 7 baselines, our method outperforms existing methods in terms of task-dependant evaluations and diversity. Code is available at https://github.com/JayoungKim408/STaSy.
Abstract（参考訳）: タブラルデータ合成は機械学習における長年の研究トピックである。統計手法から深層生成法まで、過去数十年にわたって様々な方法が提案されてきた。しかし、実世界の表データの複雑な性質のため、必ずしも成功しなかった。本稿では,スコアベース表データ合成(stasy)と呼ばれる新しいモデルと,スコアベース生成モデリングのパラダイムに基づく学習戦略を提案する。スコアベースの生成モデルが生成モデルで多くの問題を解決したという事実にもかかわらず、表データ合成の改善の余地はまだ残っている。提案したトレーニング戦略には,自己評価学習手法と微調整戦略が組み込まれており,復調スコアマッチングトレーニングを安定化することにより,サンプリング品質と多様性をさらに向上させる。さらに, 生成的タスクのトリレンマとして, サンプリング品質, 多様性, 時間について, 厳密な実験を行った。 15のベンチマーク表と7のベースラインを用いた実験では,タスク依存評価や多様性の観点から既存手法よりも優れていた。コードはhttps://github.com/JayoungKim408/STaSyで入手できる。

関連論文リスト

InfoSynth: Information-Guided Benchmark Synthesis for LLMs [69.80981631587501]
大規模言語モデル (LLM) は推論やコード生成において大きな進歩を見せている。従来のベンチマーク作成は人手による作業に依存しています。この作業では、推論ベンチマークの自動生成と評価のための新しいフレームワークであるInfo Synthを紹介した。
論文参考訳（メタデータ） (2026-01-02T05:26:27Z)
CorrSynth -- A Correlated Sampling Method for Diverse Dataset Generation from LLMs [5.89889361990138]
大規模言語モデル(LLM)は、ゼロショットプロンプトと少数ショットプロンプトを使用して、多様なタスクにおいて顕著な性能を示した。本研究では,下流の課題に対して,学生モデルが訓練されるような,多様性の高いデータセットを生成するという課題に取り組む。復号時間誘導に基づくアプローチの経路を考慮し、相関したサンプリング戦略を用いて、入力プロンプトにより多様で忠実なデータを生成するCorr Synthを提案する。
論文参考訳（メタデータ） (2024-11-13T12:09:23Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
Mambular: A Sequential Model for Tabular Deep Learning [0.7184556517162347]
本稿では,グラフデータに対する自己回帰状態空間モデルの利用について検討する。既存のベンチマークモデルと比較する。その結果,特徴をシーケンスとして解釈して処理することで,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-08-12T16:57:57Z)
A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。 Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文参考訳（メタデータ） (2024-07-01T04:24:07Z)
Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。実験結果から,本手法は既存手法よりも一貫した改善が得られた。我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文参考訳（メタデータ） (2023-11-27T06:19:50Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文参考訳（メタデータ） (2023-10-11T15:21:40Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
Efficient Classification with Counterfactual Reasoning and Active Learning [4.708737212700907]
CCRALと呼ばれる手法は、因果推論と、元のトレーニングサンプルの反事実サンプルの学習と、不確実性の領域に基づいて有用な反事実サンプルを選択するアクティブラーニングを組み合わせたものである。実験の結果, CCRALは精度とAUCの点で, ベースラインよりも有意に優れた性能を示した。
論文参考訳（メタデータ） (2022-07-25T12:03:40Z)
Contemporary Symbolic Regression Methods and their Relative Performance [5.285811942108162]
本研究では,252種類の回帰問題に対して,14のシンボル回帰法と7つの機械学習法を評価する。実世界のデータセットでは、各手法が低いエラーと低い複雑さでモデルを学習する能力をベンチマークする。合成問題に対して,様々なレベルのノイズが存在する場合に,各手法の正確な解を求める能力を評価する。
論文参考訳（メタデータ） (2021-07-29T22:12:59Z)
Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文参考訳（メタデータ） (2020-11-16T21:49:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。