論文の概要: Invertible Tabular GANs: Killing Two Birds with OneStone for Tabular
Data Synthesis
- arxiv url: http://arxiv.org/abs/2202.03636v1
- Date: Tue, 8 Feb 2022 04:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 13:43:38.801836
- Title: Invertible Tabular GANs: Killing Two Birds with OneStone for Tabular
Data Synthesis
- Title(参考訳): invertible tabular gans: 表データ合成のためのonestoneで2羽の鳥を殺す
- Authors: Jaehoon Lee, Jihyeon Hyeong, Jinsung Jeon, Noseong Park, Jihoon Cho
- Abstract要約: 提案するフレームワークは,GANの対角トレーニングと,非可逆ニューラルネットワークの負対数密度正規化を組み合わせたものである。
我々は、分類、回帰、プライバシ攻撃のための実世界のデータセットを用いて実験を行う。
- 参考スコア(独自算出の注目度): 19.858794004557456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data synthesis has received wide attention in the literature. This is
because available data is often limited, incomplete, or cannot be obtained
easily, and data privacy is becoming increasingly important. In this work, we
present a generalized GAN framework for tabular synthesis, which combines the
adversarial training of GANs and the negative log-density regularization of
invertible neural networks. The proposed framework can be used for two
distinctive objectives. First, we can further improve the synthesis quality, by
decreasing the negative log-density of real records in the process of
adversarial training. On the other hand, by increasing the negative log-density
of real records, realistic fake records can be synthesized in a way that they
are not too much close to real records and reduce the chance of potential
information leakage. We conduct experiments with real-world datasets for
classification, regression, and privacy attacks. In general, the proposed
method demonstrates the best synthesis quality (in terms of task-oriented
evaluation metrics, e.g., F1) when decreasing the negative log-density during
the adversarial training. If increasing the negative log-density, our
experimental results show that the distance between real and fake records
increases, enhancing robustness against privacy attacks.
- Abstract(参考訳): タブラルデータ合成は、文献で広く注目を集めている。
これは、利用可能なデータは、しばしば制限され、不完全であり、簡単に取得できないため、データのプライバシがますます重要になっているためである。
本稿では,ganの逆訓練と可逆ニューラルネットワークの負対数密度正規化を組み合わせた表合成のための一般化ganフレームワークを提案する。
提案フレームワークは2つの異なる目的に利用できる。
まず,実記録の負の対数密度を減少させることにより,合成品質をさらに向上させることができる。
一方、実記録の負のログ密度を増加させることで、実記録とあまり親しくなく、潜在的な情報漏洩の可能性を低下させる方法で実記録を合成することができる。
我々は、分類、回帰、およびプライバシ攻撃のための実世界のデータセットで実験を行う。
提案手法は, 対向訓練において負の対数密度を減少させる際の最適合成品質(タスク指向評価指標, 例えばF1)を示す。
負のログ密度を増大させると、実記録と偽記録との距離が増加し、プライバシー攻撃に対する堅牢性が向上することを示す実験結果が得られた。
関連論文リスト
- Exploring the Potential of Synthetic Data to Replace Real Data [16.89582896061033]
実データを置き換えるための合成データのポテンシャルは、ドメイン間の実画像の数や、トレーニングされたモデルを評価するためのテストセットによって異なることがわかった。
train2test 距離と $textAP_textt2t$ という2つの新しい指標を導入し、合成データを用いたクロスドメイントレーニングセットの性能を評価する。
論文 参考訳(メタデータ) (2024-08-26T18:20:18Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - A Correlation- and Mean-Aware Loss Function and Benchmarking Framework to Improve GAN-based Tabular Data Synthesis [2.2451409468083114]
本稿では,GAN(Generative Adversarial Network)のための新しい相関と平均認識損失関数を提案する。
提案した損失関数は、真のデータ分布をキャプチャする既存の手法よりも統計的に有意な改善を示す。
ベンチマークフレームワークは、強化された合成データ品質により、下流の機械学習タスクのパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2024-05-27T09:08:08Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data [1.5293427903448022]
合成データに対する新しい属性推論攻撃を導入する。
攻撃は任意の記録でも極めて正確であることを示す。
次に、プライバシー保護と統計ユーティリティ保護のトレードオフを評価する。
論文 参考訳(メタデータ) (2023-01-24T14:56:36Z) - An Empirical Study on the Membership Inference Attack against Tabular
Data Synthesis Models [12.878704876264317]
タブラルデータ合成モデルは、データユーティリティとプライバシのトレードオフが可能なため、人気がある。
近年の研究では、画像データの生成モデルは、メンバーシップ推論攻撃の影響を受けやすいことが示されている。
DP-SGD と DP-GAN の2つの偏微分プライベートなディープラーニング学習アルゴリズムが,攻撃からモデルを守ることができるかを評価する実験を行った。
論文 参考訳(メタデータ) (2022-08-17T07:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。