論文の概要: "Minus-One" Data Prediction Generates Synthetic Census Data with Good Crosstabulation Fidelity
- arxiv url: http://arxiv.org/abs/2406.05264v1
- Date: Fri, 7 Jun 2024 21:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 22:36:11.504580
- Title: "Minus-One" Data Prediction Generates Synthetic Census Data with Good Crosstabulation Fidelity
- Title(参考訳): 最小1」データ予測は、良好な交叉忠実度を持つ合成国勢調査データを生成する
- Authors: William H. Press,
- Abstract要約: 分類的調査結果のデータセットに関連のある統計関連を,MODPと呼ばれる手法を用いて収集する。
交叉振動がすべての交叉細胞に対して5%の正中性を有する合成応答を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to capture relevant statistical associations in a dataset of categorical survey responses by a method, here termed MODP, that "learns" a probabilistic prediction function L. Specifically, L predicts each question's response based on the same respondent's answers to all the other questions. Draws from the resulting probability distribution become synthetic responses. Applying this methodology to the PUMS subset of Census ACS data, and with a learned L akin to multiple parallel logistic regression, we generate synthetic responses whose crosstabulations (two-point conditionals) are found to have a median accuracy of ~5% across all crosstabulation cells, with cell counts ranging over four orders of magnitude. We investigate and attempt to quantify the degree to which the privacy of the original data is protected.
- Abstract(参考訳): 確率的予測関数 L を「学習する」という手法を用いて,カテゴリー的調査応答のデータセットに関連性のある統計関連を抽出することを提案する。
結果の確率分布からの描画は合成応答となる。
この手法をCensus ACSデータのPUMSサブセットに適用し、複数の並列ロジスティック回帰に類似した学習Lを用いて、クロスタビュレーション(2点条件)がすべてのクロスタビュレーションセルで中央値5%の精度で4桁以上のセル数を持つ合成応答を生成する。
我々は、元のデータのプライバシが保護されている程度を調査し、定量化しようと試みる。
関連論文リスト
- Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Estimating Unknown Population Sizes Using the Hypergeometric Distribution [1.03590082373586]
総人口と構成カテゴリーの規模が不明な場合, 個別分布の推定に挑戦する。
本研究では,連続潜伏変数上での分布条件の混合となるデータ生成過程について考察する。
実験データシミュレーションにより,本手法は数値データをモデル化する他の可能性関数よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-22T01:53:56Z) - A parametric distribution for exact post-selection inference with data
carving [0.0]
ポスト選択推論(PoSI)は、仮説の生成とテストで同じデータソースを使用するとき、有効な信頼区間とp値を得る技術である。
データ彫刻はPoSIの変種であり、保持されたデータの一部を推論時に仮説生成データと組み合わせる。
論文 参考訳(メタデータ) (2023-05-21T22:29:55Z) - Learning versus Refutation in Noninteractive Local Differential Privacy [133.80204506727526]
非対話的局所差分プライバシー(LDP)における2つの基本的な統計課題について検討する。
本研究の主な成果は,非対話型LDPプロトコルにおけるPAC学習の複雑さの完全な評価である。
論文 参考訳(メタデータ) (2022-10-26T03:19:24Z) - Predictive Data Calibration for Linear Correlation Significance Testing [0.0]
ピアソンの相関係数(PCC)は両方の点で欠落していることが知られている。
機械学習に基づく予測データキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2022-08-15T09:19:06Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Maximum sampled conditional likelihood for informative subsampling [4.708378681950648]
サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する、計算学的に効果的な手法である。
そこで本研究では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。
論文 参考訳(メタデータ) (2020-11-11T16:01:17Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Distributed Multivariate Regression Modeling For Selecting Biomarkers
Under Data Protection Constraints [0.0]
本稿では,反復呼び出しにおける集約データに基づく自動変数選択によるバイオマーカー同定のための多変数回帰手法を提案する。
このアプローチは、複数のロケーションに分散したデータを共同で分析するために使用することができる。
シミュレーションでは、局所的な標準化によって引き起こされた情報損失は最小限である。
論文 参考訳(メタデータ) (2018-03-01T15:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。