論文の概要: Predicting Race and Ethnicity From the Sequence of Characters in a Name
- arxiv url: http://arxiv.org/abs/1805.02109v2
- Date: Sat, 8 Jul 2023 01:41:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 20:54:43.199227
- Title: Predicting Race and Ethnicity From the Sequence of Characters in a Name
- Title(参考訳): 名前の文字列から人種と民族を予測すること
- Authors: Rajashekar Chintalapati, Suriyan Laohaprapanon, and Gaurav Sood
- Abstract要約: 我々は、様々な手法を用いて、名前と人種と民族の関係をモデル化する。
Long Short-Term Memory を用いたモデルでは、サンプル外精度は.85 である。
最高のパフォーマンスのラストネームモデルは、サンプル外精度が.81である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To answer questions about racial inequality and fairness, we often need a way
to infer race and ethnicity from names. One way to infer race and ethnicity
from names is by relying on the Census Bureau's list of popular last names. The
list, however, suffers from at least three limitations: 1. it only contains
last names, 2. it only includes popular last names, and 3. it is updated once
every 10 years. To provide better generalization, and higher accuracy when
first names are available, we model the relationship between characters in a
name and race and ethnicity using various techniques. A model using Long
Short-Term Memory works best with out-of-sample accuracy of .85. The
best-performing last-name model achieves out-of-sample accuracy of .81. To
illustrate the utility of the models, we apply them to campaign finance data to
estimate the share of donations made by people of various racial groups, and to
news data to estimate the coverage of various races and ethnicities in the
news.
- Abstract(参考訳): 人種格差と公平性に関する質問に答えるには、しばしば名前から人種や民族を推測する方法が必要である。
人種と民族を名前から推測する一つの方法は、国勢調査局の人気のある姓のリストに依存することである。
しかし、リストには少なくとも3つの制限がある。
1.ラストネームのみを含む。
2. 人気の姓のみを含む。
3.10年に1度更新される。
名前の文字と人種と民族の関係を様々な手法を用いてモデル化する。
Long Short-Term Memory を用いたモデルでは、サンプル外精度は .85 である。
最高のパフォーマンスのラストネームモデルは、.81のサンプル外精度を達成する。
モデルの有用性を説明するために,様々な人種集団の人々が行う寄付のシェアを推定するキャンペーンファイナンスデータと,ニュースにおける様々な人種や民族のカバレッジを推定するニュースデータに適用する。
関連論文リスト
- Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game [0.0]
個人の名前から推測される性や人種は、社会的相互作用に微妙に影響を及ぼすステレオタイプやバイアスの顕著な源泉である。
提案手法は,ベースモデルと命令調整モデルの両方において,名前に基づくバイアスを検出する。
論文 参考訳(メタデータ) (2024-04-23T02:21:17Z) - What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Probabilistic Test-Time Generalization by Variational Neighbor-Labeling [62.158807685159736]
本稿では、ドメインの一般化を試み、モデルが未確認のターゲットドメインにデプロイされる前に、ソースドメインにのみトレーニングされる。
ソーストレーニングされたモデルをテスト時にターゲットドメインに一般化するための、ターゲットサンプルの擬似ラベル化の確率。
より堅牢な擬似ラベルを生成するために、近隣のターゲットサンプルの情報を含む変分隣接ラベル。
論文 参考訳(メタデータ) (2023-07-08T18:58:08Z) - Race and ethnicity data for first, middle, and last names [0.0]
我々は、人種と民族を宣伝するための最初の、中、そして最後の名前の、最も多くコンパイルされた公開辞書を提供する。
辞書は南部6州の有権者ファイルに基づいており、有権者登録時に自己申告された人種データを収集している。
論文 参考訳(メタデータ) (2022-08-26T05:27:50Z) - Addressing Census data problems in race imputation via fully Bayesian
Improved Surname Geocoding and name supplements [0.0]
本稿では,全ベイズ改良サーネームジオコーディング(fBISG)手法を提案する。
我々は、自己申告された人種が利用可能である6つの南部州の有権者ファイルから得た、最終、第一、中の名前に関する追加データで、国勢調査の姓データを補足する。
実証実験の結果,fBISGの方法論と名称サプリメントにより,人種集団,特にアジア諸国における人種的インパクションの精度が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-05-12T14:41:45Z) - raceBERT -- A Transformer-based Model for Predicting Race and Ethnicity
from Names [0.0]
raceBERTは、名前の文字列から人種と民族を予測するトランスフォーマーベースのモデルである。
平均f1スコアは0.86で、以前の最先端よりも4.1%改善され、非白人名では15-17%改善されている。
論文 参考訳(メタデータ) (2021-12-07T16:30:40Z) - Rethnicity: Predicting Ethnicity from Names [0.0]
Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。
データセットの不均衡を調整することにより、マイノリティグループの正確性に特別な注意が払われる。
論文 参考訳(メタデータ) (2021-09-19T21:30:22Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。