論文の概要: Addressing Census data problems in race imputation via fully Bayesian
Improved Surname Geocoding and name supplements
- arxiv url: http://arxiv.org/abs/2205.06129v1
- Date: Thu, 12 May 2022 14:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 12:25:58.418338
- Title: Addressing Census data problems in race imputation via fully Bayesian
Improved Surname Geocoding and name supplements
- Title(参考訳): 完全ベイジアン改良サーネームジオコーディングとサプリメントによるレース計算におけるセンサスデータ問題への対処
- Authors: Kosuke Imai and Santiago Olivella and Evan T. R. Rosenman
- Abstract要約: 本稿では,全ベイズ改良サーネームジオコーディング(fBISG)手法を提案する。
我々は、自己申告された人種が利用可能である6つの南部州の有権者ファイルから得た、最終、第一、中の名前に関する追加データで、国勢調査の姓データを補足する。
実証実験の結果,fBISGの方法論と名称サプリメントにより,人種集団,特にアジア諸国における人種的インパクションの精度が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Prediction of an individual's race and ethnicity plays an important role in
social science and public health research. Examples include studies of racial
disparity in health and voting. Recently, Bayesian Improved Surname Geocoding
(BISG), which uses Bayes' rule to combine information from Census surname files
with the geocoding of an individual's residence, has emerged as a leading
methodology for this prediction task. Unfortunately, BISG suffers from two
Census data problems that contribute to unsatisfactory predictive performance
for minorities. First, the decennial Census often contains zero counts for
minority racial groups in the Census blocks where some members of those groups
reside. Second, because the Census surname files only include frequent names,
many surnames -- especially those of minorities -- are missing from the list.
To address the zero counts problem, we introduce a fully Bayesian Improved
Surname Geocoding (fBISG) methodology that accounts for potential measurement
error in Census counts by extending the na\"ive Bayesian inference of the BISG
methodology to full posterior inference. To address the missing surname
problem, we supplement the Census surname data with additional data on last,
first, and middle names taken from the voter files of six Southern states where
self-reported race is available. Our empirical validation shows that the fBISG
methodology and name supplements significantly improve the accuracy of race
imputation across all racial groups, and especially for Asians. The proposed
methodology, together with additional name data, is available via the
open-source software package wru.
- Abstract(参考訳): 個人の人種や民族の予測は、社会科学や公衆衛生研究において重要な役割を果たす。
例としては、健康と投票における人種格差の研究がある。
近年,ベイジアン改良サーネームジオコーディング (BISG) は, ベイジのルールを用いて, センサス姓ファイルからの情報を個人宅のジオコーディングと組み合わせることで, この予測作業の指導的手法として登場した。
残念ながら、BISGは少数民族にとって不満足な予測性能に寄与する2つの国勢調査データ問題に悩まされている。
第一に、小年次国勢調査は、少数民族集団が居住する国勢調査区において、少数民族集団のカウントをゼロにすることが多い。
第二に、国勢調査の姓ファイルには頻繁に名前だけが含まれているため、多くの姓(特に少数民族)がリストから欠落している。
ゼロカウント問題に対処するために,BISG手法のna\\ive Bayesian推論を完全後部推論に拡張することにより,センサスカウントにおける潜在的測定誤差を考慮に入れた完全ベイズ改良サーネームジオコーディング(fBISG)手法を提案する。
紛失した苗字問題に対処するために,自給自足人種が利用可能な南部6州の投票者ファイルから取られた最終,第一,中間の氏名に関する追加データを用いて,国勢調査の姓データを補足する。
実証実験の結果,fBISGの方法論と名称サプリメントにより,人種集団,特にアジア諸国における人種的インパクションの精度が著しく向上することが示唆された。
提案手法は、追加の名前データとともに、オープンソースソフトウェアパッケージwruで利用可能である。
関連論文リスト
- Evaluating Bias and Noise Induced by the U.S. Census Bureau's Privacy
Protection Methods [0.0]
アメリカ合衆国国勢調査局は、国勢調査統計の正確さと個々の情報の保護との間に難しいトレードオフに直面している。
我々は,2つの主要な開示回避システムによって誘導されるバイアスとノイズの独立評価を行う。
TopDownのポストプロセッシングはNMFノイズを劇的に低減し、スワップの精度に類似したデータを生成する。
論文 参考訳(メタデータ) (2023-06-13T03:30:19Z) - Estimating Racial Disparities When Race is Not Observed [3.0931877196387196]
本稿では,人種間の格差を推定する新しいモデルについて,人種の指標変数として姓を用いて紹介する。
ノースカロライナの投票者ファイルに基づく検証調査では、BISG+BIRDiEは政党登録における人種的違いを推定した場合、エラーを最大84%削減している。
提案手法を適用し,米国内国歳入庁の個人レベルの税率データを用いて住宅ローン利子控除の恩恵を受ける者の人種差を推定する。
論文 参考訳(メタデータ) (2023-03-05T04:46:16Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - Race and ethnicity data for first, middle, and last names [0.0]
我々は、人種と民族を宣伝するための最初の、中、そして最後の名前の、最も多くコンパイルされた公開辞書を提供する。
辞書は南部6州の有権者ファイルに基づいており、有権者登録時に自己申告された人種データを収集している。
論文 参考訳(メタデータ) (2022-08-26T05:27:50Z) - Avoiding bias when inferring race using name-based approaches [0.8543368663496084]
我々は、米国国勢調査および住宅ローン申請の情報を用いて、米国関連作家のウェブ・オブ・サイエンスにおける人種を推測する。
その結果、人種・民族によって名前に基づく推論の妥当性が異なり、しきい値が黒人作家を過小評価し、白人作家を過小評価することを示した。
論文 参考訳(メタデータ) (2021-04-14T08:36:22Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Improving Semi-supervised Federated Learning by Reducing the Gradient
Diversity of Models [67.66144604972052]
Federated Learning(FL)は、ユーザのプライバシを維持しながらモバイルデバイスのコンピューティングパワーを使用する、有望な方法だ。
テスト精度に影響を与える重要な問題は、異なるユーザーからのモデルの勾配の多様性であることを示す。
本稿では,FedAvg平均化を代替するグループモデル平均化手法を提案する。
論文 参考訳(メタデータ) (2020-08-26T03:36:07Z) - Differential Privacy of Hierarchical Census Data: An Optimization
Approach [53.29035917495491]
国勢調査局(Census Bureaus)は、個人に関する機密情報を明らかにすることなく、大人口に関する社会経済的データをまとめて公開することに興味を持っている。
最近の出来事では、これらの組織が直面しているプライバシー上の課題がいくつか特定されている。
本稿では,階層的な個人数を解放する新たな差分プライバシ機構を提案する。
論文 参考訳(メタデータ) (2020-06-28T18:19:55Z) - Magnify Your Population: Statistical Downscaling to Augment the Spatial
Resolution of Socioeconomic Census Data [48.7576911714538]
重要社会経済的属性の詳細な推定を導出する新しい統計的ダウンスケーリング手法を提案する。
選択された社会経済変数ごとに、ランダムフォレストモデルが元の国勢調査単位に基づいて訓練され、その後、微細なグリッド化された予測を生成するために使用される。
本研究では,この手法を米国の国勢調査データに適用し,ブロック群レベルで選択された社会経済変数を,300の空間分解能のグリッドにダウンスケールする。
論文 参考訳(メタデータ) (2020-06-23T16:52:18Z) - CNN-based Density Estimation and Crowd Counting: A Survey [65.06491415951193]
本稿では,主にCNNに基づく密度マップ推定法において,群集数モデルについて包括的に検討する。
評価指標から, 観客数データセットで上位3人のパフォーマーを選択した。
我々は、今後のクラウドカウントの展開について、合理的な推測と予測を行うことを期待する。
論文 参考訳(メタデータ) (2020-03-28T13:17:30Z) - Predicting Race and Ethnicity From the Sequence of Characters in a Name [0.0]
我々は、様々な手法を用いて、名前と人種と民族の関係をモデル化する。
Long Short-Term Memory を用いたモデルでは、サンプル外精度は.85 である。
最高のパフォーマンスのラストネームモデルは、サンプル外精度が.81である。
論文 参考訳(メタデータ) (2018-05-05T20:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。