論文の概要: Using Embedding Models to Improve Probabilistic Race Prediction
- arxiv url: http://arxiv.org/abs/2604.22555v2
- Date: Tue, 28 Apr 2026 01:47:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.81935
- Title: Using Embedding Models to Improve Probabilistic Race Prediction
- Title(参考訳): 埋め込みモデルによる確率的レース予測の改善
- Authors: Noah Dasanaike, Kosuke Imai,
- Abstract要約: 人種格差を推定するには、個人レベルの人種データが必要である。
データ取得は一般姓のみであり、米国の人口の約10%を削減している。
センサスでカバーされていない名前の競合確率を推定するために,埋め込み型BISG(eBISG)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating racial disparity requires individual-level race data, which are often unavailable due to the sensitivity of collecting such information. To address this problem, many researchers utilize Bayesian Improved Surname Geocoding (BISG), which have critically relied on Census surname data. Unfortunately, these data capture race-surname relationships only for common surnames, omitting approximately 10% of the US population. We show that predictive performance degrades substantially for individuals with such omitted, uncommon surnames because standard BISG implementation relies on a uninformative generic prior in these cases. To address this limitation, we propose embedding-powered BISG (eBISG), which uses pre-trained text embeddings to represent names as dense vectors and trains neural networks on 2020 Census surname and first-name data to estimate race probabilities for names not covered in the Census. We compare five approaches: standard BISG using only surnames, BIFSG incorporating first name probabilities, surname embedding for unlisted names, surname and first name embedding combining both, and a full-name embedding trained on voter file data from Southern states that captures interactions between name components. We show that each successive eBISG approach improves race prediction, with the full-name embedding yielding the largest gains, particularly for Hispanic and Asian voters whose surnames are absent from the Census list.
- Abstract(参考訳): 人種格差を推定するには、個人レベルの人種データが必要であるが、そのような情報を集める感度のため、しばしば利用できない。
この問題に対処するために、多くの研究者は、国勢調査の姓データに批判的に依存しているベイジアン改良名前ジオコーディング(BISG)を利用している。
残念なことに、これらのデータは、米国人口の約10%を排除し、一般的な姓のみの人種と名前の関係を捉えている。
従来のBISG実装は、これらのケースにおいて、非形式的なジェネリックに依存しているため、そのような省略された非一般的な姓を持つ個人に対して、予測性能が著しく低下することを示す。
この制限に対処するため,2020年国勢調査の姓とファーストネームデータを用いて,センサスに含まれない名前のレース確率を推定するために,事前訓練されたテキスト埋め込みを用いて,名前を密度の高いベクトルとして表現し,ニューラルネットワークを訓練するBISG(eBISG)を提案する。
我々は,姓のみを用いた標準的なBISG,名字確率を組み込んだBIFSG,名字と名字の埋め込みを併用した名字と名字の埋め込み,および名字コンポーネント間のインタラクションをキャプチャする南部州からの投票者データに基づいて訓練されたフルネーム埋め込みの5つのアプローチを比較した。
ヒスパニック系およびアジア系有権者の姓が国勢調査リストから欠落している場合、各 eBISG アプローチがレース予測を改善し、フルネームの埋め込みが最大の利益をもたらすことを示す。
関連論文リスト
- Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Estimating Racial Disparities When Race is Not Observed [3.0931877196387196]
本稿では,人種間の格差を推定する新しいモデルについて,人種の指標変数として姓を用いて紹介する。
ノースカロライナの投票者ファイルに基づく検証調査では、BISG+BIRDiEは政党登録における人種的違いを推定した場合、エラーを最大84%削減している。
提案手法を適用し,米国内国歳入庁の個人レベルの税率データを用いて住宅ローン利子控除の恩恵を受ける者の人種差を推定する。
論文 参考訳(メタデータ) (2023-03-05T04:46:16Z) - Race and ethnicity data for first, middle, and last names [0.0]
我々は、人種と民族を宣伝するための最初の、中、そして最後の名前の、最も多くコンパイルされた公開辞書を提供する。
辞書は南部6州の有権者ファイルに基づいており、有権者登録時に自己申告された人種データを収集している。
論文 参考訳(メタデータ) (2022-08-26T05:27:50Z) - Addressing Census data problems in race imputation via fully Bayesian
Improved Surname Geocoding and name supplements [0.0]
本稿では,全ベイズ改良サーネームジオコーディング(fBISG)手法を提案する。
我々は、自己申告された人種が利用可能である6つの南部州の有権者ファイルから得た、最終、第一、中の名前に関する追加データで、国勢調査の姓データを補足する。
実証実験の結果,fBISGの方法論と名称サプリメントにより,人種集団,特にアジア諸国における人種的インパクションの精度が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-05-12T14:41:45Z) - Rethnicity: Predicting Ethnicity from Names [0.0]
Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。
データセットの不均衡を調整することにより、マイノリティグループの正確性に特別な注意が払われる。
論文 参考訳(メタデータ) (2021-09-19T21:30:22Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - On Leveraging Unlabeled Data for Concurrent Positive-Unlabeled Classification and Robust Generation [72.062661402124]
余分なデータに晒された場合,PU分類と条件生成を共同で目標とする新たなトレーニングフレームワークを提案する。
我々は,CNI-CGANの最適条件を実証し,多様なデータセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Predicting Race and Ethnicity From the Sequence of Characters in a Name [0.0]
我々は、様々な手法を用いて、名前と人種と民族の関係をモデル化する。
Long Short-Term Memory を用いたモデルでは、サンプル外精度は.85 である。
最高のパフォーマンスのラストネームモデルは、サンプル外精度が.81である。
論文 参考訳(メタデータ) (2018-05-05T20:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。