論文の概要: Private Synthetic Data for Multitask Learning and Marginal Queries
- arxiv url: http://arxiv.org/abs/2209.07400v1
- Date: Thu, 15 Sep 2022 16:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:16:56.579268
- Title: Private Synthetic Data for Multitask Learning and Marginal Queries
- Title(参考訳): マルチタスク学習とマージンクエリのためのプライベート合成データ
- Authors: Giuseppe Vietri, Cedric Archambeau, Sergul Aydore, William Brown,
Michael Kearns, Aaron Roth, Ankit Siva, Shuai Tang, Zhiwei Steven Wu
- Abstract要約: 我々のアルゴリズムにおける重要な革新は、数値的特徴を直接扱う能力である。
バイナリ化の必要性を排除することで、大量の統計的クエリを保持する合成データを生成することができる。
我々の手法は最も優れた手法よりも2~5倍高速に動作します。
- 参考スコア(独自算出の注目度): 30.123686707904543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a differentially private algorithm for producing synthetic data
simultaneously useful for multiple tasks: marginal queries and multitask
machine learning (ML). A key innovation in our algorithm is the ability to
directly handle numerical features, in contrast to a number of related prior
approaches which require numerical features to be first converted into {high
cardinality} categorical features via {a binning strategy}. Higher binning
granularity is required for better accuracy, but this negatively impacts
scalability. Eliminating the need for binning allows us to produce synthetic
data preserving large numbers of statistical queries such as marginals on
numerical features, and class conditional linear threshold queries. Preserving
the latter means that the fraction of points of each class label above a
particular half-space is roughly the same in both the real and synthetic data.
This is the property that is needed to train a linear classifier in a multitask
setting. Our algorithm also allows us to produce high quality synthetic data
for mixed marginal queries, that combine both categorical and numerical
features. Our method consistently runs 2-5x faster than the best comparable
techniques, and provides significant accuracy improvements in both marginal
queries and linear prediction tasks for mixed-type datasets.
- Abstract(参考訳): マージンクェリとマルチタスク機械学習(ml)という、複数のタスクに同時に有用な合成データを生成するための差分プライベートアルゴリズムを提供する。
我々のアルゴリズムにおける重要な革新は、数値的特徴を {a binning strategy} を通じて {high cardinality} のカテゴリ的特徴に変換するために、いくつかの関連する先行的アプローチと対照的に、数値的特徴を直接扱う能力である。
高いバイナリの粒度がより正確さに要求されるが、これはスケーラビリティに悪影響を及ぼす。
バイナリ化の必要性を解消することで,数値的な特徴の辺りやクラス条件の線形しきい値クエリなど,多数の統計的クエリを保持する合成データを生成することができる。
後者を保存することは、ある半空間上の各クラスラベルの点の分数は、実データと合成データの両方でほぼ同じであることを意味する。
これは、マルチタスク設定で線形分類器を訓練するために必要な特性である。
また,提案アルゴリズムにより,分類的特徴と数値的特徴を組み合わせ,高品質な合成データを生成することができる。
提案手法は,最良手法よりも2~5倍高速に動作し,混合型データセットに対する限界クエリおよび線形予測タスクの精度向上を実現している。
関連論文リスト
- Online Nonparametric Supervised Learning for Massive Data [0.0]
本研究では,非パラメトリック分類器を大規模にリアルタイムに計算する高速アルゴリズムと,ストリーミングデータフレームワークを開発した。
提案手法は、リアルタイムな胎児の健康モニタリングによく使用される機械学習アルゴリズムと比較して評価・比較する。
論文 参考訳(メタデータ) (2024-05-29T20:04:23Z) - Spectral Clustering of Categorical and Mixed-type Data via Extra Graph
Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。
データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。
この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文 参考訳(メタデータ) (2024-03-08T20:49:49Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Nonlinear Feature Aggregation: Two Algorithms driven by Theory [45.3190496371625]
現実世界の機械学習アプリケーションは、膨大な機能によって特徴付けられ、計算やメモリの問題を引き起こす。
一般集約関数を用いて特徴量の非線形変換を集約する次元還元アルゴリズム(NonLinCFA)を提案する。
また、アルゴリズムを合成および実世界のデータセット上でテストし、回帰および分類タスクを実行し、競合性能を示す。
論文 参考訳(メタデータ) (2023-06-19T19:57:33Z) - Practical Approaches for Fair Learning with Multitype and Multivariate
Sensitive Attributes [70.6326967720747]
現実世界に展開された機械学習アルゴリズムが不公平さや意図しない社会的結果をもたらすことはないことを保証することが重要である。
本稿では,カーネルHilbert Spacesの相互共分散演算子上に構築されたフェアネス尺度であるFairCOCCOを紹介する。
実世界のデータセットにおける予測能力と公正性のバランスをとる上で、最先端技術に対する一貫した改善を実証的に示す。
論文 参考訳(メタデータ) (2022-11-11T11:28:46Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Efficient and Near-Optimal Smoothed Online Learning for Generalized
Linear Functions [28.30744223973527]
我々は,K-wise線形分類において,統計学的に最適なログ(T/sigma)の後悔を初めて楽しむ計算効率のよいアルゴリズムを提案する。
一般化線形分類器によって誘導される不一致領域の幾何学の新たな特徴付けを開発する。
論文 参考訳(メタデータ) (2022-05-25T21:31:36Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。