論文の概要: Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis
- arxiv url: http://arxiv.org/abs/2405.20602v1
- Date: Fri, 31 May 2024 03:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:36:24.137454
- Title: Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis
- Title(参考訳): タブラルデータ合成のための条件密度推定のためのマスケ言語モデリング
- Authors: Seunghwan An, Gyeongdong Woo, Jaesung Lim, ChangHyun Kim, Sungchul Hong, Jong-June Jeon,
- Abstract要約: 非パラメトリック条件密度推定を考案し,新しい合成データ生成手法MaCoDEを提案する。
提案モデルでは,再トレーニングを必要とせず,データプライバシレベルの調整を可能にする。
- 参考スコア(独自算出の注目度): 0.74454067778951
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, our goal is to generate synthetic data for heterogeneous (mixed-type) tabular datasets with high machine learning utility (MLu). Given that the MLu performance relies on accurately approximating the conditional distributions, we focus on devising a synthetic data generation method based on conditional distribution estimation. We propose a novel synthetic data generation method, MaCoDE, by redefining the multi-class classification task of Masked Language Modeling (MLM) as histogram-based non-parametric conditional density estimation. Our proposed method enables estimating conditional densities across arbitrary combinations of target and conditional variables. Furthermore, we demonstrate that our proposed method bridges the theoretical gap between distributional learning and MLM. To validate the effectiveness of our proposed model, we conduct synthetic data generation experiments on 10 real-world datasets. Given the analogy between predicting masked input tokens in MLM and missing data imputation, we also evaluate the performance of multiple imputations on incomplete datasets with various missing data mechanisms. Moreover, our proposed model offers the advantage of enabling adjustments to data privacy levels without requiring re-training.
- Abstract(参考訳): 本稿では,機械学習ユーティリティ(MLu)を用いた異種(混合型)表型データセットの合成データを生成することを目的とする。
MLuの性能は条件分布を正確に近似することに依存しているため,条件分布推定に基づく合成データ生成手法の開発に注力する。
本研究では,Masked Language Modeling (MLM) のマルチクラス分類タスクをヒストグラムに基づく非パラメトリック条件密度推定として再定義し,新しい合成データ生成手法であるMaCoDEを提案する。
提案手法は,目的変数と条件変数の任意の組み合わせで条件密度を推定できる。
さらに,本提案手法は分布学習とMDMの理論的ギャップを埋めることを示した。
提案モデルの有効性を検証するため,10個の実世界のデータセット上で合成データ生成実験を行った。
MLMにおけるマスク付き入力トークンの予測と欠落データ計算との類似性を考えると,不完全なデータセットに対する複数の命令の性能を,様々なデータ機構が欠落している場合に評価する。
さらに,本提案モデルでは,データプライバシレベルの調整を,再トレーニングを必要とせずに行うことができる。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Treatment-RSPN: Recurrent Sum-Product Networks for Sequential Treatment
Regimes [3.7004311481324677]
Sum-product Network (SPN) は、高い効率な確率的推論を可能にする新しいディープラーニングアーキテクチャとして登場した。
RSPNを用いた逐次的処理決定行動と処理応答のモデル化のための一般的なフレームワークを提案する。
本研究は,MIMIC-IV集中治療ユニット医療データベースから得られた,人工的データセットと実世界のデータに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-11-14T00:18:44Z) - Generation and Simulation of Synthetic Datasets with Copulas [0.0]
本稿では,数値変数あるいは分類変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。
我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-30T13:22:44Z) - Conditional Synthetic Data Generation for Robust Machine Learning
Applications with Limited Pandemic Data [11.535196994689501]
条件付き生成フローと条件付き合成データ生成のための分類器からなるハイブリッドモデルを提案する。
固定条件特徴表現を用いて局所雑音を操作することで合成データを生成する。
本手法は,定性および定量的性能の両方において,既存モデルよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2021-09-14T07:30:54Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。