論文の概要: raceBERT -- A Transformer-based Model for Predicting Race and Ethnicity
from Names
- arxiv url: http://arxiv.org/abs/2112.03807v3
- Date: Thu, 9 Dec 2021 05:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 13:21:24.367921
- Title: raceBERT -- A Transformer-based Model for Predicting Race and Ethnicity
from Names
- Title(参考訳): raceBERT -- 名前から人種と民族を予測するトランスフォーマーベースのモデル
- Authors: Prasanna Parasurama
- Abstract要約: raceBERTは、名前の文字列から人種と民族を予測するトランスフォーマーベースのモデルである。
平均f1スコアは0.86で、以前の最先端よりも4.1%改善され、非白人名では15-17%改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents raceBERT -- a transformer-based model for predicting race
and ethnicity from character sequences in names, and an accompanying python
package. Using a transformer-based model trained on a U.S. Florida voter
registration dataset, the model predicts the likelihood of a name belonging to
5 U.S. census race categories (White, Black, Hispanic, Asian & Pacific
Islander, American Indian & Alaskan Native). I build on Sood and Laohaprapanon
(2018) by replacing their LSTM model with transformer-based models (pre-trained
BERT model, and a roBERTa model trained from scratch), and compare the results.
To the best of my knowledge, raceBERT achieves state-of-the-art results in race
prediction using names, with an average f1-score of 0.86 -- a 4.1% improvement
over the previous state-of-the-art, and improvements between 15-17% for
non-white names.
- Abstract(参考訳): 本稿では、名前の文字列から人種や民族を予測するトランスフォーマーベースモデル raceBERT と、それに付随するpython パッケージを提案する。
フロリダ州の有権者登録データセットでトレーニングされたトランスフォーマーベースのモデルを使用して、このモデルは5つの米国国勢調査カテゴリー(白人、黒人、ヒスパニック、アジアと太平洋の島民、アメリカインディアンとアラスカ先住民)に属する名前の可能性を予測する。
私は Sood と Laohaprapanon (2018) を使って、LSTM モデルをトランスフォーマーベースモデル(事前トレーニングされたBERTモデルと、スクラッチからトレーニングされたRoBERTaモデル)に置き換えて、結果を比較します。
私の知る限りでは、 raceBERTは名前を使ったレース予測における最先端の結果を達成しており、平均f1スコアは0.86であり、以前の最先端よりも4.1%改善され、非白人名では15-17%改善されている。
関連論文リスト
- Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Can We Trust Race Prediction? [0.0]
私は、50州すべての有権者登録データの新しいデータセットに基づいて、Bidirectional Long Short-Term Memory (BiLSTM)モデルをトレーニングします。
アメリカにおける姓と姓の分布の包括的データベースを構築します。
私は、既存のモデルを公平に比較し、将来のモデル開発者を支援するために、最初の高品質なベンチマークデータセットを提供しています。
論文 参考訳(メタデータ) (2023-07-17T13:59:07Z) - TEDB System Description to a Shared Task on Euphemism Detection 2022 [0.0]
テキスト分類の最先端手法であるトランスフォーマーモデルについて検討した。
0.816 F1スコアの最良の結果は,特徴抽出器としてのエウヘミズム検出/TimeLMs予測RoBERTaモデルである。
論文 参考訳(メタデータ) (2023-01-16T20:37:56Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Predicting Issue Types with seBERT [85.74803351913695]
seBERT は BERT アーキテクチャに基づいて開発されたモデルであるが、ゼロからソフトウェア工学のデータで訓練された。
問題型予測の課題に対して,NLBSEの課題に対して,このモデルを微調整した。
我々のモデルは、リコールとプリシシオの3つのイシュータイプすべてに対して、F1スコア全体の85.7%を達成するためのベースラインであるfastTextを支配している。
論文 参考訳(メタデータ) (2022-05-03T06:47:13Z) - Rethnicity: Predicting Ethnicity from Names [0.0]
Bidirectional LSTMをモデルとして、フロリダ投票登録をトレーニングデータとして使用します。
データセットの不均衡を調整することにより、マイノリティグループの正確性に特別な注意が払われる。
論文 参考訳(メタデータ) (2021-09-19T21:30:22Z) - BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps
Reviews [1.5749416770494706]
本研究では,2種類の事前学習モデルを用いた感情分析における細調整BERTの有効性について検討した。
使用されるデータセットは、インドネシアのGoogle Playサイトで2020年のトップ10アプリのユーザーレビューである。
また,2つのトレーニングデータラベリング手法を用いて,スコアベースとレキシコンベースのモデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-14T16:00:15Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z) - Predicting Race and Ethnicity From the Sequence of Characters in a Name [0.0]
我々は、様々な手法を用いて、名前と人種と民族の関係をモデル化する。
Long Short-Term Memory を用いたモデルでは、サンプル外精度は.85 である。
最高のパフォーマンスのラストネームモデルは、サンプル外精度が.81である。
論文 参考訳(メタデータ) (2018-05-05T20:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。