論文の概要: Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks
- arxiv url: http://arxiv.org/abs/2008.06110v1
- Date: Thu, 13 Aug 2020 21:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:48:42.214055
- Title: Synthesizing Property & Casualty Ratemaking Datasets using Generative
Adversarial Networks
- Title(参考訳): ジェネレーティブ・ディバイサル・ネットワークを用いた資産・カジュアルティ・レート作成データセットの合成
- Authors: Marie-Pier Cote, Brian Hartman, Olivier Mercier, Joshua Meyers, Jared
Cummings, Elijah Harmon
- Abstract要約: 秘密のオリジナルデータセットから合成保険データセットを構築することができるGAN(Generative Adversarial Network)の3種類の設計方法を示す。
透明性のために、これらのアプローチは、公開データセット、フランスのモーターサードパーティの負債データを使って説明されている。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、MNCDP-GANは差分プライバシーを保証する。
- 参考スコア(独自算出の注目度): 2.2649197740853677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to confidentiality issues, it can be difficult to access or share
interesting datasets for methodological development in actuarial science, or
other fields where personal data are important. We show how to design three
different types of generative adversarial networks (GANs) that can build a
synthetic insurance dataset from a confidential original dataset. The goal is
to obtain synthetic data that no longer contains sensitive information but
still has the same structure as the original dataset and retains the
multivariate relationships. In order to adequately model the specific
characteristics of insurance data, we use GAN architectures adapted for
multi-categorical data: a Wassertein GAN with gradient penalty (MC-WGAN-GP), a
conditional tabular GAN (CTGAN) and a Mixed Numerical and Categorical
Differentially Private GAN (MNCDP-GAN). For transparency, the approaches are
illustrated using a public dataset, the French motor third party liability
data. We compare the three different GANs on various aspects: ability to
reproduce the original data structure and predictive models, privacy, and ease
of use. We find that the MC-WGAN-GP synthesizes the best data, the CTGAN is the
easiest to use, and the MNCDP-GAN guarantees differential privacy.
- Abstract(参考訳): 機密性の問題のため、日常科学や個人データが重要な分野における方法論開発のための興味深いデータセットにアクセスしたり共有したりすることは困難である。
機密のオリジナルデータセットから合成保険データセットを構築することができる3つの異なるタイプのジェネレーティブ・リバーサリー・ネットワーク(gans)を設計する方法を示す。
目標は、センシティブな情報をもはや含まないが、元のデータセットと同じ構造を持ち、多変量関係を保持する合成データを得ることである。
保険データの特徴を適切にモデル化するために,多カテゴリデータに適合するGANアーキテクチャ(MC-WGAN-GP),条件付き表型GAN(CTGAN),MNCDP-GAN(MNCDP-GAN)を用いる。
透明性のために、このアプローチは、公開データセットであるフランス自動車責任データを使って示される。
我々は、元のデータ構造を再現する能力、予測モデル、プライバシ、使いやすさの3つの異なるganを比較した。
MC-WGAN-GPは最良のデータを合成し、CTGANは最も使いやすく、NCDP-GANは差分プライバシーを保証する。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - Fake It Till Make It: Federated Learning with Consensus-Oriented
Generation [52.82176415223988]
コンセンサス指向生成による連合学習(FedCOG)を提案する。
FedCOGは、補完的なデータ生成と知識蒸留に基づくモデルトレーニングという、クライアント側の2つの重要なコンポーネントで構成されています。
古典的および実世界のFLデータセットの実験は、FedCOGが一貫して最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-12-10T18:49:59Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - CTAB-GAN: Effective Table Data Synthesizing [7.336728307626645]
多様なデータ型をモデル化できる条件付きテーブルGANアーキテクチャCTAB-GANを開発。
CTAB-GANは3種類の変数の実際のデータに非常に似ており、5つの機械学習アルゴリズムの精度が17%向上したことを示しています。
論文 参考訳(メタデータ) (2021-02-16T18:53:57Z) - imdpGAN: Generating Private and Specific Data with Generative
Adversarial Networks [19.377726080729293]
imdpGANは、プライバシー保護と潜伏表現を同時に達成するエンドツーエンドフレームワークである。
我々は、ImdpGANが個々のデータポイントのプライバシを保持し、生成したサンプルの特異性を制御するために潜時符号を学習していることを示す。
論文 参考訳(メタデータ) (2020-09-29T08:03:32Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z) - DP-CGAN: Differentially Private Synthetic Data and Label Generation [18.485995499841]
本稿では,新たなクリッピング・摂動戦略に基づくDP-CGANトレーニングフレームワークを提案する。
DP-CGANは, 1桁のエプシロンパラメータを用いて, MNISTデータセット上で視覚的, 経験的に有望な結果を生成することができることを示す。
論文 参考訳(メタデータ) (2020-01-27T11:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。