論文の概要: Rethnicity: Predicting Ethnicity from Names
- arxiv url: http://arxiv.org/abs/2109.09228v1
- Date: Sun, 19 Sep 2021 21:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:18:16.787067
- Title: Rethnicity: Predicting Ethnicity from Names
- Title(参考訳): rethnicity: 名前から民族を予測する
- Authors: Fangzhou Xie
- Abstract要約: Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。
データセットの不均衡を調整することにより、マイノリティグループの正確性に特別な注意が払われる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I provide an R package, \texttt{rethnicity}, for predicting ethnicity from
names. I use the Bidirectional LSTM as the model and Florida Voter Registration
as training data. Special care is given for the accuracy of minority groups, by
adjusting the imbalance in the dataset. I also compare the availability,
accuracy, and performance with other solutions for predicting ethnicity from
names. Sample code snippet and analysis of the DIME dataset are also shown as
applications of the package.
- Abstract(参考訳): 名前から民族を予測するための r パッケージ \texttt{rethnicity} を提供する。
Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。
データセットの不均衡を調整することにより、マイノリティグループの精度に特に注意が払われる。
私はまた、その可用性、正確性、パフォーマンスを、名前から民族を予測する他のソリューションと比較します。
DIMEデータセットのサンプルコードスニペットと分析もパッケージの応用例として示されている。
関連論文リスト
- Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Can We Trust Race Prediction? [0.0]
私は、50州すべての有権者登録データの新しいデータセットに基づいて、Bidirectional Long Short-Term Memory (BiLSTM)モデルをトレーニングします。
アメリカにおける姓と姓の分布の包括的データベースを構築します。
私は、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供しています。
論文 参考訳(メタデータ) (2023-07-17T13:59:07Z) - Estimating Racial Disparities When Race is Not Observed [3.0931877196387196]
本稿では,人種間の格差を推定する新しいモデルについて,人種の指標変数として姓を用いて紹介する。
ノースカロライナの投票者ファイルに基づく検証調査では、BISG+BIRDiEは政党登録における人種的違いを推定した場合、エラーを最大84%削減している。
提案手法を適用し,米国内国歳入庁の個人レベルの税率データを用いて住宅ローン利子控除の恩恵を受ける者の人種差を推定する。
論文 参考訳(メタデータ) (2023-03-05T04:46:16Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Race and ethnicity data for first, middle, and last names [0.0]
我々は、人種と民族を宣伝するための最初の、中、そして最後の名前の、最も多くコンパイルされた公開辞書を提供する。
辞書は南部6州の有権者ファイルに基づいており、有権者登録時に自己申告された人種データを収集している。
論文 参考訳(メタデータ) (2022-08-26T05:27:50Z) - Addressing Census data problems in race imputation via fully Bayesian
Improved Surname Geocoding and name supplements [0.0]
本稿では,全ベイズ改良サーネームジオコーディング(fBISG)手法を提案する。
我々は、自己申告された人種が利用可能である6つの南部州の有権者ファイルから得た、最終、第一、中の名前に関する追加データで、国勢調査の姓データを補足する。
実証実験の結果,fBISGの方法論と名称サプリメントにより,人種集団,特にアジア諸国における人種的インパクションの精度が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-05-12T14:41:45Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Predicting Race and Ethnicity From the Sequence of Characters in a Name [0.0]
我々は、様々な手法を用いて、名前と人種と民族の関係をモデル化する。
Long Short-Term Memory を用いたモデルでは、サンプル外精度は.85 である。
最高のパフォーマンスのラストネームモデルは、サンプル外精度が.81である。
論文 参考訳(メタデータ) (2018-05-05T20:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。