論文の概要: What's in a Name? -- Gender Classification of Names with Character Based
Machine Learning Models
- arxiv url: http://arxiv.org/abs/2102.03692v1
- Date: Sun, 7 Feb 2021 01:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:21:52.659876
- Title: What's in a Name? -- Gender Classification of Names with Character Based
Machine Learning Models
- Title(参考訳): 名前には何がありますか?
--文字ベース機械学習モデルを用いた名前のジェンダー分類
- Authors: Yifan Hu, Changwei Hu, Thanh Tran, Tejaswi Kasturi, Elizabeth Joseph,
Matt Gillingham
- Abstract要約: 本稿では,登録ユーザの性別を宣言された名前に基づいて予測する問題を考察する。
1億人以上の利用者のファーストネームを分析したところ、性別は名前文字列の合成によって非常に効果的に分類できることがわかった。
- 参考スコア(独自算出の注目度): 6.805167389805055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gender information is no longer a mandatory input when registering for an
account at many leading Internet companies. However, prediction of demographic
information such as gender and age remains an important task, especially in
intervention of unintentional gender/age bias in recommender systems. Therefore
it is necessary to infer the gender of those users who did not to provide this
information during registration. We consider the problem of predicting the
gender of registered users based on their declared name. By analyzing the first
names of 100M+ users, we found that genders can be very effectively classified
using the composition of the name strings. We propose a number of character
based machine learning models, and demonstrate that our models are able to
infer the gender of users with much higher accuracy than baseline models.
Moreover, we show that using the last names in addition to the first names
improves classification performance further.
- Abstract(参考訳): 多くの大手インターネット企業でアカウントを登録する場合、性別情報はもはや必須入力ではありません。
しかし、特にレコメンダシステムにおける意図しない性別/年齢バイアスの介入において、性別や年齢などの人口統計情報の予測は重要な課題である。
したがって、登録中にこの情報を提供しなかったユーザーの性別を推測する必要があります。
本稿では,登録ユーザの性別を宣言された名前に基づいて予測する問題を考察する。
1億人以上のユーザーのファーストネームを分析した結果、性別は名前文字列の合成を使って非常に効果的に分類できることがわかった。
我々は,多数の文字ベース機械学習モデルを提案し,我々のモデルがベースラインモデルよりもはるかに高い精度でユーザの性別を推測できることを実証した。
さらに,初期名に加えて最終名を用いることで,分類性能が向上することを示す。
関連論文リスト
- Beyond Binary Gender Labels: Revealing Gender Biases in LLMs through Gender-Neutral Name Predictions [5.896505047270243]
我々は、大きな言語モデルにおける潜在的な性バイアスについて研究し、対処するために、さらにジェンダーカテゴリー、すなわち「中立」を導入する。
性別予測の精度を高めるために出生年を増やすことの影響について検討する。
論文 参考訳(メタデータ) (2024-07-07T05:59:09Z) - Gender inference: can chatGPT outperform common commercial tools? [0.0]
生成人工知能(AI)ツールChatGPTと、市販のリストベースおよび機械学習ベースの性推論ツール3つを比較した。
具体的には、オリンピック選手の大規模なデータセットを使用して、入力のバリエーション(例えば、ファーストネームとファーストネームとラストネーム)が予測の正確さにどのように影響するかを報告します。
ChatGPTは少なくともNamsorと同様に動作し、特に国または/または名字情報が利用可能な女性のサンプルでは、その性能に優れることが多い。
論文 参考訳(メタデータ) (2023-11-24T22:09:14Z) - Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender
Perturbation over Fairytale Texts [87.62403265382734]
近年の研究では、伝統的な妖精は有害な性バイアスを伴っていることが示されている。
本研究は,ジェンダーの摂動に対する頑健さを評価することによって,言語モデルの学習バイアスを評価することを目的とする。
論文 参考訳(メタデータ) (2023-10-16T22:25:09Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Improving Gender Fairness of Pre-Trained Language Models without
Catastrophic Forgetting [88.83117372793737]
元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。
本稿では,GEnder Equality Prompt(GEEP)を提案する。
論文 参考訳(メタデータ) (2021-10-11T15:52:16Z) - VoxCeleb Enrichment for Age and Gender Recognition [12.520037579004883]
我々は、VoxCelebデータセットに話者年齢ラベルと(代替)話者性別アノテーションを提供する。
年齢と性別の認識モデルを構築することで,このメタデータの利用を実証する。
また、オリジナルVoxCelebの性別ラベルと当社のラベルを比較して、オリジナルVoxCelebのデータに誤ラベルされている可能性のあるレコードを特定します。
論文 参考訳(メタデータ) (2021-09-28T06:18:57Z) - Predicting gender of Brazilian names using deep learning [0.0]
一部の機械学習アルゴリズムは、この予測を十分に実行することができる。
ブラジル名のデータセットを使用して、モデルをトレーニングし、評価する。
一部のモデルは、90%以上のケースで正確に性別を予測する。
論文 参考訳(メタデータ) (2021-06-18T14:45:59Z) - Gender Prediction Based on Vietnamese Names with Machine Learning
Techniques [2.7528170226206443]
ベトナム語名に基づくジェンダー予測のための新しいデータセットを提案する。
このデータセットは、性別で注釈付けされた26,000以上のフルネームで構成されている。
本稿では、6つの機械学習アルゴリズムと、ベトナム語の性別予測のための高速テキスト単語埋め込みを用いた深層学習モデル(LSTM)について述べる。
論文 参考訳(メタデータ) (2020-10-21T09:25:48Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z) - Towards Gender-Neutral Face Descriptors for Mitigating Bias in Face
Recognition [51.856693288834975]
最先端のディープネットワークは、顔認識のために訓練されている間、性別情報を暗黙的にエンコードする。
ジェンダーは顔を識別する上で重要な属性と見なされることが多い。
本稿では,顔ディスクリプタに存在する性別情報を減らすために,新たにAGENDA(Adversarial Gender De-biasing Algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-14T08:54:03Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。