論文の概要: Race and ethnicity data for first, middle, and last names
- arxiv url: http://arxiv.org/abs/2208.12443v1
- Date: Fri, 26 Aug 2022 05:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:37:40.374440
- Title: Race and ethnicity data for first, middle, and last names
- Title(参考訳): ファースト、ミドル、ラストネームの人種と民族のデータ
- Authors: Evan T. R. Rosenman, Santiago Olivella, and Kosuke Imai
- Abstract要約: 我々は、人種と民族を宣伝するための最初の、中、そして最後の名前の、最も多くコンパイルされた公開辞書を提供する。
辞書は南部6州の有権者ファイルに基づいており、有権者登録時に自己申告された人種データを収集している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We provide the largest compiled publicly available dictionaries of first,
middle, and last names for the purpose of imputing race and ethnicity using,
for example, Bayesian Improved Surname Geocoding (BISG). The dictionaries are
based on the voter files of six Southern states that collect self-reported
racial data upon voter registration. Our data cover a much larger scope of
names than any comparable dataset, containing roughly one million first names,
1.1 million middle names, and 1.4 million surnames. Individuals are categorized
into five mutually exclusive racial and ethnic groups -- White, Black,
Hispanic, Asian, and Other -- and racial/ethnic counts by name are provided for
every name in each dictionary. Counts can then be normalized row-wise or
column-wise to obtain conditional probabilities of race given name or name
given race. These conditional probabilities can then be deployed for imputation
in a data analytic task for which ground truth racial and ethnic data is not
available.
- Abstract(参考訳): 例えば、ベイジアン改良サーネームジオコーディング(BISG)を用いて、人種や民族を宣伝する目的で、第1、第2、第2、第2、第2の辞書をまとめてまとめる。
辞書は、有権者登録時に自己申告した人種データを収集する南部6州の投票者ファイルに基づいている。
私たちのデータは、ほぼ100万のファーストネーム、11万のミドルネーム、140万の姓を含む、同等のデータセットよりもはるかに広い範囲をカバーしています。
個人は、白人、黒人、ヒスパニック系、アジア系、その他の5つの排他的な人種的・民族的グループに分類され、それぞれの辞書のすべての名前に人種的・民族的カウントが与えられる。
カウントは、与えられた名前や名前の条件付き確率を得るために、行または列ごとに正規化することができる。
これらの条件付き確率は、基礎的真理の人種的および民族的データが利用できないデータ分析タスクにインプテーションとしてデプロイすることができる。
関連論文リスト
- Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Estimating Racial Disparities When Race is Not Observed [3.0931877196387196]
本稿では,人種間の格差を推定する新しいモデルについて,人種の指標変数として姓を用いて紹介する。
ノースカロライナの投票者ファイルに基づく検証調査では、BISG+BIRDiEは政党登録における人種的違いを推定した場合、エラーを最大84%削減している。
提案手法を適用し,米国内国歳入庁の個人レベルの税率データを用いて住宅ローン利子控除の恩恵を受ける者の人種差を推定する。
論文 参考訳(メタデータ) (2023-03-05T04:46:16Z) - Addressing Census data problems in race imputation via fully Bayesian
Improved Surname Geocoding and name supplements [0.0]
本稿では,全ベイズ改良サーネームジオコーディング(fBISG)手法を提案する。
我々は、自己申告された人種が利用可能である6つの南部州の有権者ファイルから得た、最終、第一、中の名前に関する追加データで、国勢調査の姓データを補足する。
実証実験の結果,fBISGの方法論と名称サプリメントにより,人種集団,特にアジア諸国における人種的インパクションの精度が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-05-12T14:41:45Z) - To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo [53.370023611101175]
本稿では,Cuiらによって提案されたPerson-centric Visual Groundingタスクに対して,偏りのあるデータセットを提案する。
画像とキャプションが与えられた場合、PCVGはキャプションに記載されている人物の名前と、画像内の人物を指し示すバウンディングボックスをペアリングする必要がある。
オリジナルのWho's Waldoデータセットには、メソッドによって簡単に解ける多数のバイアスのあるサンプルが含まれていることが分かりました。
論文 参考訳(メタデータ) (2022-03-30T21:35:53Z) - Rethnicity: Predicting Ethnicity from Names [0.0]
Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。
データセットの不均衡を調整することにより、マイノリティグループの正確性に特別な注意が払われる。
論文 参考訳(メタデータ) (2021-09-19T21:30:22Z) - Avoiding bias when inferring race using name-based approaches [0.8543368663496084]
我々は、米国国勢調査および住宅ローン申請の情報を用いて、米国関連作家のウェブ・オブ・サイエンスにおける人種を推測する。
その結果、人種・民族によって名前に基づく推論の妥当性が異なり、しきい値が黒人作家を過小評価し、白人作家を過小評価することを示した。
論文 参考訳(メタデータ) (2021-04-14T08:36:22Z) - One Label, One Billion Faces: Usage and Consistency of Racial Categories
in Computer Vision [75.82110684355979]
顔画像の分類的人種ラベルを提供するコンピュータビジョンデータセットによって符号化された人種システムについて検討する。
各データセットは、名目上等価な人種分類にもかかわらず、かなりユニークな人種体系をコードしている。
我々は、人種的カテゴリーがステレオタイプを符号化し、非整合性からステレオタイプへの分類から民族集団を除外する証拠を見出した。
論文 参考訳(メタデータ) (2021-02-03T22:50:04Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z) - Predicting Race and Ethnicity From the Sequence of Characters in a Name [0.0]
我々は、様々な手法を用いて、名前と人種と民族の関係をモデル化する。
Long Short-Term Memory を用いたモデルでは、サンプル外精度は.85 である。
最高のパフォーマンスのラストネームモデルは、サンプル外精度が.81である。
論文 参考訳(メタデータ) (2018-05-05T20:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。