論文の概要: Generating Synthetic Data with The Nearest Neighbors Algorithm
- arxiv url: http://arxiv.org/abs/2210.00884v1
- Date: Mon, 3 Oct 2022 12:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:43:54.692025
- Title: Generating Synthetic Data with The Nearest Neighbors Algorithm
- Title(参考訳): 近接近傍アルゴリズムによる合成データの生成
- Authors: Ali Furkan Kalay
- Abstract要約: 近辺の$k$(k$NN)は、様々な目的で使われる最も人気のあるノンパラメトリックメソッドの1つである。
本稿では、ローカルリサンプラーLRと呼ばれる一般半パラメトリックまたは非パラメトリックアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The $k$ nearest neighbor algorithm ($k$NN) is one of the most popular
nonparametric methods used for various purposes, such as treatment effect
estimation, missing value imputation, classification, and clustering. The main
advantage of $k$NN is its simplicity of hyperparameter optimization. It often
produces favorable results with minimal effort. This paper proposes a generic
semiparametric (or nonparametric if required) approach named Local Resampler
(LR). LR utilizes $k$NN to create subsamples from the original sample and then
generates synthetic values that are drawn from locally estimated distributions.
LR can accurately create synthetic samples, even if the original sample has a
non-convex distribution. Moreover, LR shows better or similar performance to
other popular synthetic data methods with minimal model optimization with
parametric distributional assumptions.
- Abstract(参考訳): k$近くのアルゴリズム(k$NN)は、治療効果の推定、値の計算の欠如、分類、クラスタリングなど、様々な目的で使われる最も一般的なノンパラメトリック手法の1つである。
k$NNの主な利点は、ハイパーパラメータ最適化の単純さである。
しばしば最小限の努力で良い結果をもたらす。
本稿では,ローカル・リサンプラー (LR) と呼ばれる一般半パラメトリック・非パラメトリックなアプローチを提案する。
lr は $k$nn を使って元のサンプルから副サンプルを作成し、局所的に推定された分布から引き出される合成値を生成する。
LRは、元のサンプルが非凸分布であっても、正確に合成サンプルを作成することができる。
さらに、LRはパラメトリック分布仮定で最小限のモデル最適化を施した他の一般的な合成データ手法よりも優れているか類似した性能を示す。
関連論文リスト
- Debiasing Synthetic Data Generated by Deep Generative Models [40.165159490379146]
合成データ生成のための深部生成モデル(DGM)は、合成データ解析においてバイアスと不正確性を誘導する。
本稿では,DGMが生成する合成データを,特定のデータ解析のためにターゲットとする新たな戦略を提案する。
提案手法は, 偏差を考慮し, 収束率を向上し, 容易に近似された大きなサンプル分散を持つ推定器の計算を容易にする。
論文 参考訳(メタデータ) (2024-11-06T19:24:34Z) - Multi-objective evolutionary GAN for tabular data synthesis [0.873811641236639]
合成データは統計機関や他の統計データ生成装置によるデータ共有において重要な役割を果たしている。
本稿では,SMOE-CTGAN(SMOE-CTGAN)を合成データとして提案する。
以上の結果から,SMOE-CTGANは,複数の国勢調査データセットに対して,異なるリスクと実用レベルを持つ合成データセットを発見可能であることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T23:07:57Z) - MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime [63.851085173614]
MargCTGANは、非相関な辺縁部の特徴マッチングを追加し、結果として、下流ユーティリティと合成データの統計的性質が一貫した改善をもたらす。
論文 参考訳(メタデータ) (2023-07-16T10:28:49Z) - Differentially private sliced inverse regression in the federated
paradigm [3.539008590223188]
Sliced inverse regression(SIR)を拡張して、分散データの課題に対処し、プライバシと通信効率を優先する。
我々の手法はFSIR (Federated sliced inverse regression) と呼ばれ、複数のクライアント間で十分な次元削減部分空間を協調的に推定する。
論文 参考訳(メタデータ) (2023-06-10T00:32:39Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Comparing the Utility and Disclosure Risk of Synthetic Data with Samples
of Microdata [0.6445605125467572]
データの実用性と開示リスクの計測方法に関するコンセンサスはない。
ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。
本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-02T20:38:29Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Principled learning method for Wasserstein distributionally robust
optimization with local perturbations [21.611525306059985]
ワッサーシュタイン分布論的ロバスト最適化(WDRO)は、実験データ分布近傍の局所的な最悪のリスクを最小限に抑えるモデルを学習しようとする。
本稿では,新しい近似定理に基づく最小化器を提案し,それに対応するリスク一貫性結果を提供する。
提案手法は,ノイズのあるデータセットのベースラインモデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-06-05T09:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。