論文の概要: dpart: Differentially Private Autoregressive Tabular, a General
Framework for Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2207.05810v1
- Date: Tue, 12 Jul 2022 19:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 15:30:10.941608
- Title: dpart: Differentially Private Autoregressive Tabular, a General
Framework for Synthetic Data Generation
- Title(参考訳): dpart: 合成データ生成のための汎用フレームワークである差分的にプライベートな自動回帰タブラル
- Authors: Sofiane Mahiou, Kai Xu, Georgi Ganev
- Abstract要約: dpartは、微分プライベートな合成データ生成のためのオープンソースのPythonライブラリである。
ライブラリは、素早くアクセス可能なベースラインとして機能するビューで作成されている。
例えば、Independent、最適化されたPrivBayes、新しく提案されたモデルdp-synthpopなどがある。
- 参考スコア(独自算出の注目度): 8.115937653695884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a general, flexible, and scalable framework dpart, an open source
Python library for differentially private synthetic data generation. Central to
the approach is autoregressive modelling -- breaking the joint data
distribution to a sequence of lower-dimensional conditional distributions,
captured by various methods such as machine learning models (logistic/linear
regression, decision trees, etc.), simple histogram counts, or custom
techniques. The library has been created with a view to serve as a quick and
accessible baseline as well as to accommodate a wide audience of users, from
those making their first steps in synthetic data generation, to more
experienced ones with domain expertise who can configure different aspects of
the modelling and contribute new methods/mechanisms. Specific instances of
dpart include Independent, an optimized version of PrivBayes, and a newly
proposed model, dp-synthpop.
Code: https://github.com/hazy/dpart
- Abstract(参考訳): 汎用的でフレキシブルでスケーラブルなフレームワークdpartを提案する。dpartは、異なるプライベートな合成データ生成のためのオープンソースのpythonライブラリである。
このアプローチの中心にあるのは、自己回帰モデリング(autoregressive modeling) – 関節データの分布を、マシンラーニングモデル(ロジスティック/線形回帰、決定木など)や単純なヒストグラム数、カスタムテクニックといった、低次元の条件分布のシーケンスに分割する。
このライブラリは、合成データ生成の第一歩を踏み出したユーザから、モデリングのさまざまな側面を設定でき、新しいメソッドやメカニズムを貢献できるドメインの専門知識を持つユーザまで、迅速かつアクセス可能なベースラインとして機能すると同時に、幅広いユーザに対応するために作られた。
例えば、Independent、最適化されたPrivBayes、新しく提案されたモデルdp-synthpopなどがある。
コード: https://github.com/hazy/dpart
関連論文リスト
- Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients [12.008071873475169]
フェデレートラーニング(Federated Learning)とは、異なるクライアント上でデータをローカルに保ちながら、共有予測モデルを共同で学習するテクニックである。
本稿では, 早期解を用いた動的アーキテクチャを用いて, 入力や動作条件に応じて, その処理を適応させることができることを提案する。
このソリューションは、部分的なトレーニングメソッドの領域に該当し、2つのメリットをもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:32:37Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Mixture-Models: a one-stop Python Library for Model-based Clustering
using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。
様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。
このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文 参考訳(メタデータ) (2024-02-08T19:34:24Z) - A Federated Data Fusion-Based Prognostic Model for Applications with Multi-Stream Incomplete Signals [1.2277343096128712]
本稿では、複数のユーザが共同で障害時間予測モデルを構築することができるフェデレーション予測モデルを提案する。
数値解析により,提案モデルの性能は古典的非フェデレーション予測モデルと同一であることが示唆された。
論文 参考訳(メタデータ) (2023-11-13T17:08:34Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - VertiBayes: Learning Bayesian network parameters from vertically partitioned data with missing values [2.9707233220536313]
フェデレーション学習は、分散データに基づいて機械学習モデルをトレーニングすることを可能にする。
本稿では,垂直分割データ上でベイズネットワークを学習するためのVertiBayesという新しい手法を提案する。
提案手法は,従来のアルゴリズムを用いて学習したモデルに匹敵するモデルを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:13:35Z) - Data Summarization via Bilevel Optimization [48.89977988203108]
シンプルだが強力なアプローチは、小さなサブセットのデータを操作することだ。
本研究では,コアセット選択を基数制約付き双レベル最適化問題として定式化する汎用コアセットフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T09:08:38Z) - GRAFFL: Gradient-free Federated Learning of a Bayesian Generative Model [8.87104231451079]
本稿では、GRAFFLと呼ばれる、最初の勾配のない連邦学習フレームワークを提案する。
参加する各機関から得られた暗黙の情報を用いて、パラメータの後方分布を学習する。
本稿では,GRAFFLに基づくベイズ混合モデルを提案する。
論文 参考訳(メタデータ) (2020-08-29T07:19:44Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。