論文の概要: Least Squares Estimation For Hierarchical Data
- arxiv url: http://arxiv.org/abs/2404.13164v2
- Date: Wed, 04 Jun 2025 12:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.79089
- Title: Least Squares Estimation For Hierarchical Data
- Title(参考訳): 階層データの最小二乗推定
- Authors: Ryan Cumings-Menon, Pavel Zhuravlev,
- Abstract要約: アメリカ合衆国国勢調査局の2020年開示回避システム(DAS)はノイズ測定に基づく出力をベースとしている。
本稿では,非常に高次元の最小二乗推定値を計算するために,入力データの階層構造を利用するアルゴリズムについて述べる。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The U.S. Census Bureau's 2020 Disclosure Avoidance System (DAS) bases its output on noisy measurements, which are population tabulations added to realizations of mean-zero random variables. These noisy measurements are observed for a set of hierarchical geographic units, e.g., the U.S. as a whole, states, counties, census tracts, and census blocks. The Census Bureau released the noisy measurements generated in the DAS executions for the two primary 2020 Census data products, in part to allow data users to assess uncertainty in 2020 Census tabulations introduced by disclosure avoidance. This paper describes an algorithm that can leverage a hierarchical structure of the input data in order to compute very high dimensional least squares estimates in a computationally efficient manner. Afterward, we show that this algorithm's output is equal to the generalized least squares estimator, describe how to find the variance of linear functions of this estimator, and provide a numerical experiment in which we compute confidence intervals of 2010 Census tabulations based on this estimator. We also describe an accompanying Census Bureau experimental data product that applies this estimator to the publicly available noisy measurements to provide data users with the inputs required to estimate confidence intervals for all tabulations that were included in one of the two main 2020 Census data products, i.e., the 2020 Redistricting Data Product, in the US, state, county, and census tract geographic levels.
- Abstract(参考訳): アメリカ合衆国国勢調査局の2020年開示回避システム(DAS)は、平均ゼロ確率変数の実現に付加される人口の集計であるノイズ測定に基づいて、その出力をベースとしている。
これらのノイズ測定は、階層的な地理的単位、例えばアメリカ合衆国全体、州、郡、国勢調査区域、国勢調査ブロックで観測される。
国勢調査局は、データ利用者が開示回避によって導入された2020年の国勢調査集計の不確実性を評価するために、2つの主要な2020年国勢調査データ製品のDAS実行時に発生するノイズ測定を公開した。
本稿では,非常に高次元の最小二乗推定値を計算するために,入力データの階層構造を利用するアルゴリズムについて述べる。
その後、このアルゴリズムの出力は、一般化された最小二乗推定器に等しいことを示し、この推定器の線形関数のばらつきを見つける方法を記述し、この推定器に基づいて2010年国勢調査集計の信頼区間を計算する数値実験を行う。
また,2020年国勢調査データ製品である2020年国勢調査データ製品(米国,州,郡,国勢調査地域)の2つの主要データ製品のうちの1つに含まれるすべての集計項目の信頼区間を推定するために必要なインプットを,データ利用者に提供するために,この推定値を適用した国勢調査局実験データ製品についても述べる。
関連論文リスト
- Benchmarking Fraud Detectors on Private Graph Data [70.4654745317714]
現在、多くの種類の不正は、グラフ上で動く自動検出アルゴリズムによって部分的に管理されている。
データ保有者が不正検知器の開発を第三者にアウトソースしようとするシナリオを考察する。
サードパーティは、不正検出をデータ保持者に送信し、これらのアルゴリズムをプライベートデータセットで評価し、その結果を公表する。
本システムに対する現実的なプライバシ攻撃を提案し,評価結果のみに基づいて個人データの匿名化を可能にする。
論文 参考訳(メタデータ) (2025-07-30T03:20:15Z) - The NetMob25 Dataset: A High-resolution Multi-layered View of Individual Mobility in Greater Paris Region [64.30214722988666]
本稿では,提案したデータセットのサーベイ設計,収集プロトコル,処理手法,特徴について述べる。
データセットには、人口統計、社会経済、家庭の特徴を記述した個人データベース(i)、タイムスタンプ、輸送モード、旅行目的を含む8,000以上の注釈付き変位を持つトリプスデータベース(ii)、約5億の高周波ポイントからなるRaw GPSトレースデータベース(iii)の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-06-06T09:22:21Z) - PHSafe: Disclosure Avoidance for the 2020 Census Supplemental Demographic and Housing Characteristics File (S-DHC) [7.7544849165583525]
本稿では、離散ガウス分布から引き出された雑音を興味のある統計に付加するPHSafeアルゴリズムについて述べる。
このアルゴリズムは、ゼロ集中差分プライバシーと呼ばれる、よく研究されている差分プライバシーの変種を満たすことを証明している。
論文 参考訳(メタデータ) (2025-05-02T13:20:32Z) - SafeTab-P: Disclosure Avoidance for the 2020 Census Detailed Demographic and Housing Characteristics File A (Detailed DHC-A) [7.787555954397617]
この記事では、米国国勢調査局が2020年国勢調査の詳細なデモグラフィック・ハウジング特性ファイルA(DHC-A)を保護するために使用した開示回避アルゴリズムについて述べる。
SafeTab-Pアルゴリズムは、離散ガウス分布から興味のある統計に引き出された雑音を付加することに基づいている。
我々は、このアルゴリズムがゼロ集中微分プライバシー(zCDP)と呼ばれる、よく研究された微分プライバシーの変種を満たすことを証明した。
論文 参考訳(メタデータ) (2025-05-02T13:08:28Z) - Scalable Private Partition Selection via Adaptive Weighting [66.09199304818928]
プライベート・セット・ユニオンでは、ユーザーは非有界宇宙からのアイテムのサブセットを保持する。
目標は、ユーザレベルの差分プライバシーを維持しながら、ユーザセットの統一から可能な限り多くのアイテムを出力することである。
そこで本研究では,プライバシに必要なしきい値よりもはるかに重い項目からより少ない項目へ適応的に重みを還元するアルゴリズムであるMaximumDegree (MAD)を提案する。
論文 参考訳(メタデータ) (2025-02-13T01:27:11Z) - Best Linear Unbiased Estimate from Privatized Histograms [6.17477133700348]
差分プライバシ(DP)メカニズムでは、"冗長"出力を解放することは有益である。
最小分散処理は線形射影であることを示す。
最適線形不偏推定(SEA BLUE)のためのスケーラブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-06T16:27:34Z) - Noisy Measurements Are Important, the Design of Census Products Is Much More Important [1.52292571922932]
McCartan et al. (2023) は「国勢調査データユーザーのための差分プライバシー業務」を要求している。
このコメントは、2020年の国勢調査ノイズ計測ファイル(NMFs)が、この嘆願の最良の焦点ではない理由を説明している。
論文 参考訳(メタデータ) (2023-12-20T15:43:04Z) - Disclosure Avoidance for the 2020 Census Demographic and Housing Characteristics File [7.664548801662584]
本稿では,情報開示回避システム(DAS)が2020年国勢調査データ製品リリースを支援するために,公式にプライベートなアウトプットを生成するために使用する概念と手法について述べる。
デモグラフィック・ハウジング特性(DHC)ファイルのリリースに必要なDASの更新について述べる。
また、2020年国勢調査の機密集計のための信頼区間を提供するツールの開発を容易にするために、その後の実験データについても述べる。
論文 参考訳(メタデータ) (2023-12-18T00:54:04Z) - Robust Statistical Comparison of Random Variables with Locally Varying
Scale of Measurement [0.562479170374811]
異なる次元の多次元構造のような局所的に異なる測定スケールを持つ空間は、統計学や機械学習において非常に一般的である。
我々は、そのような非標準空間に写像される確率変数の期待値(集合)に基づく順序を考えることで、この問題に対処する。
この順序は、極端ケースとして支配性や期待順序を含む。
論文 参考訳(メタデータ) (2023-06-22T11:02:18Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Concrete Score Matching: Generalized Score Matching for Discrete Data [109.12439278055213]
コンクレトスコア(Concrete score)とは、個別の設定のためのスコア(ステイン)の一般化である。
コンクレトスコアマッチング(Concrete Score Matching)は、サンプルからこのようなスコアを学習するフレームワークである。
論文 参考訳(メタデータ) (2022-11-02T00:41:37Z) - Compact Redistricting Plans Have Many Spanning Trees [39.779544988993294]
政治的再分権マップの設計と分析において、国勢調査ブロックのグラフのすべての分割の空間から同じ人口の連結部分グラフにサンプリングできることがしばしば有用である。
本稿では,境界分割領域の総長さと,そのような写像がサンプリングされる確率との間には,逆指数関係が成立する。
論文 参考訳(メタデータ) (2021-09-27T23:36:01Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - Distribution Matching for Crowd Counting [51.90971145453012]
アノテーションにガウスを付与することは一般化性能を損なうことを示す。
我々は,群集CoUNTing (DM-Count) における分布マッチングの利用を提案する。
平均絶対誤差(Mean Absolute Error)の観点では、DM-Countは従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-09-28T04:57:23Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Magnify Your Population: Statistical Downscaling to Augment the Spatial
Resolution of Socioeconomic Census Data [48.7576911714538]
重要社会経済的属性の詳細な推定を導出する新しい統計的ダウンスケーリング手法を提案する。
選択された社会経済変数ごとに、ランダムフォレストモデルが元の国勢調査単位に基づいて訓練され、その後、微細なグリッド化された予測を生成するために使用される。
本研究では,この手法を米国の国勢調査データに適用し,ブロック群レベルで選択された社会経済変数を,300の空間分解能のグリッドにダウンスケールする。
論文 参考訳(メタデータ) (2020-06-23T16:52:18Z) - NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。
他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。
本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文 参考訳(メタデータ) (2020-01-10T09:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。