論文の概要: Testing Credibility of Public and Private Surveys through the Lens of Regression
- arxiv url: http://arxiv.org/abs/2410.05458v1
- Date: Mon, 7 Oct 2024 19:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:37:46.426776
- Title: Testing Credibility of Public and Private Surveys through the Lens of Regression
- Title(参考訳): 回帰レンズによる公的・民間調査の信頼性試験
- Authors: Debabrota Basu, Sourav Chakraborty, Debarshi Chanda, Buddha Dev Das, Arijit Ghosh, Arnab Ray,
- Abstract要約: 本稿では,線形回帰の観点から,サンプル調査の信頼性を検証するためのアルゴリズムを設計する。
我々は、調査におけるプライバシーを保証する標準技術であるローカル微分プライバシー(LDP)に焦点を当てる。
本稿では,LDPで公表した調査において,線形回帰モデルを高い確率で学習するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.41706324335425
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Testing whether a sample survey is a credible representation of the population is an important question to ensure the validity of any downstream research. While this problem, in general, does not have an efficient solution, one might take a task-based approach and aim to understand whether a certain data analysis tool, like linear regression, would yield similar answers both on the population and the sample survey. In this paper, we design an algorithm to test the credibility of a sample survey in terms of linear regression. In other words, we design an algorithm that can certify if a sample survey is good enough to guarantee the correctness of data analysis done using linear regression tools. Nowadays, one is naturally concerned about data privacy in surveys. Thus, we further test the credibility of surveys published in a differentially private manner. Specifically, we focus on Local Differential Privacy (LDP), which is a standard technique to ensure privacy in surveys where the survey participants might not trust the aggregator. We extend our algorithm to work even when the data analysis has been done using surveys with LDP. In the process, we also propose an algorithm that learns with high probability the guarantees a linear regression model on a survey published with LDP. Our algorithm also serves as a mechanism to learn linear regression models from data corrupted with noise coming from any subexponential distribution. We prove that it achieves the optimal estimation error bound for $\ell_1$ linear regression, which might be of broader interest. We prove the theoretical correctness of our algorithms while trying to reduce the sample complexity for both public and private surveys. We also numerically demonstrate the performance of our algorithms on real and synthetic datasets.
- Abstract(参考訳): サンプル調査が人口の信頼できる表現であるかどうかを調べることは、下流調査の有効性を確保する上で重要な問題である。
この問題には、一般に効率的な解決策がないが、タスクベースのアプローチを採り、あるデータ分析ツール、例えば線形回帰が、人口とサンプル調査の両方で同様の答えをもたらすかどうかを理解することを目指している。
本稿では,線形回帰の観点から,サンプル調査の信頼性を検証するためのアルゴリズムを設計する。
言い換えれば、線形回帰ツールを用いて行ったデータ解析の正確性を保証するのに十分なサンプル調査が十分かどうかを証明できるアルゴリズムを設計する。
今日では、データプライバシーに関する調査が自然に行われている。
そこで本研究では,個別に公開する調査の信頼性をさらに検証する。
具体的には、調査参加者がアグリゲータを信頼できない可能性のある調査において、プライバシを確保するための標準技術であるローカル微分プライバシ(LDP)に焦点を当てる。
LDPを用いたサーベイを用いてデータ解析を行った場合でも,我々のアルゴリズムは機能するように拡張する。
また,LDPで公表した調査において,線形回帰モデルを高い確率で学習するアルゴリズムを提案する。
また,このアルゴリズムは,任意の部分分布から発生する雑音で劣化したデータから線形回帰モデルを学習する機構としても機能する。
より広い関心を持つかもしれない線形回帰に対して,$\ell_1$の最適推定誤差を達成することを証明した。
我々は,我々のアルゴリズムの理論的正しさを証明し,公開調査とプライベートサーベイの両方において,サンプルの複雑さを減らそうとしている。
また、実データや合成データに対して、アルゴリズムの性能を数値的に示す。
関連論文リスト
- Optimal Algorithms for Augmented Testing of Discrete Distributions [25.818433126197036]
予測器は3つのプロパティテストタスクすべてに必要なサンプル数を実際に削減できることを示す。
我々のアルゴリズムの重要な利点は、予測の精度への適応性である。
アルゴリズムによって達成されるサンプルの複雑さの改善は、情報理論的に最適であることを示すために、より低い境界を提供する。
論文 参考訳(メタデータ) (2024-12-01T21:31:22Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Synthetic Census Data Generation via Multidimensional Multiset Sum [7.900694093691988]
我々は、Censusの統計データのみから合成マイクロデータを生成するツールを提供する。
我々は,本手法が実際にうまく機能していることを示し,その性能を説明する理論的議論を行う。
論文 参考訳(メタデータ) (2024-04-15T19:06:37Z) - Differentially Private Linear Regression with Linked Data [3.9325957466009203]
コンピュータ科学の数学的概念である差分プライバシーは、堅牢なプライバシー保証を提供する上昇するツールである。
最近の研究は、個々の統計および機械学習タスクの微分プライベートバージョンの開発に焦点を当てている。
相関データを用いた線形回帰のための2つの微分プライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-01T21:00:19Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Regression with Label Differential Privacy [64.21020761920322]
与えられた回帰損失関数の下で最適なラベルDPランダム化機構を導出する。
我々は、最適メカニズムが「ビンのランダム化応答」の形をとることを証明した。
論文 参考訳(メタデータ) (2022-12-12T17:41:32Z) - Shuffled linear regression through graduated convex relaxation [12.614901374282868]
シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を復元することを目的としている。
この問題は、調査データを含む広範囲のアプリケーションで発生する。
後最大化目的関数に基づく線形回帰をシャッフルする新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:33:48Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。