論文の概要: Gender Prediction Based on Vietnamese Names with Machine Learning
Techniques
- arxiv url: http://arxiv.org/abs/2010.10852v4
- Date: Tue, 23 Mar 2021 07:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 23:51:12.715561
- Title: Gender Prediction Based on Vietnamese Names with Machine Learning
Techniques
- Title(参考訳): 機械学習を用いたベトナム語名に基づく性別予測
- Authors: Huy Quoc To, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, Anh Gia-Tuan
Nguyen
- Abstract要約: ベトナム語名に基づくジェンダー予測のための新しいデータセットを提案する。
このデータセットは、性別で注釈付けされた26,000以上のフルネームで構成されている。
本稿では、6つの機械学習アルゴリズムと、ベトナム語の性別予測のための高速テキスト単語埋め込みを用いた深層学習モデル(LSTM)について述べる。
- 参考スコア(独自算出の注目度): 2.7528170226206443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As biological gender is one of the aspects of presenting individual human,
much work has been done on gender classification based on people names. The
proposals for English and Chinese languages are tremendous; still, there have
been few works done for Vietnamese so far. We propose a new dataset for gender
prediction based on Vietnamese names. This dataset comprises over 26,000 full
names annotated with genders. This dataset is available on our website for
research purposes. In addition, this paper describes six machine learning
algorithms (Support Vector Machine, Multinomial Naive Bayes, Bernoulli Naive
Bayes, Decision Tree, Random Forrest and Logistic Regression) and a deep
learning model (LSTM) with fastText word embedding for gender prediction on
Vietnamese names. We create a dataset and investigate the impact of each name
component on detecting gender. As a result, the best F1-score that we have
achieved is up to 96% on LSTM model and we generate a web API based on our
trained model.
- Abstract(参考訳): 生物学的ジェンダーは個々の人間を提示する側面の1つであり、人名に基づく性別分類について多くの研究がなされている。
英語と中国語の提案は非常に大きいが、ベトナム語のための作品はほとんど残っていない。
ベトナム語名に基づく性別予測のための新しいデータセットを提案する。
このデータセットは、性別で注釈付けされた26,000以上のフルネームで構成されている。
このデータセットは、我々のウェブサイトで研究目的で利用可能です。
さらに,本論文では,ベトナム語のジェンダー予測に高速テキスト単語を埋め込んだ6つの機械学習アルゴリズム(Support Vector Machine, Multinomial Naive Bayes, Bernoulli Naive Bayes, Decision Tree, Random Forrest and Logistic Regression)と深層学習モデル(LSTM)について述べる。
データセットを作成し、各名前成分が性別検出に与える影響を調査する。
その結果、私たちが達成した最高のF1スコアは、LSTMモデルで最大96%、トレーニングされたモデルに基づいてWeb APIを生成しました。
関連論文リスト
- For the Misgendered Chinese in Gender Bias Research: Multi-Task Learning with Knowledge Distillation for Pinyin Name-Gender Prediction [8.287754685560815]
我々は、Pinyinの名前と性別の推測問題を定式化し、知識蒸留によるマルチタスク学習ネットワークを設計する。
当社のオープンソース手法は,9.70%から20.08%の精度で商品名と性別の推測ツールを上回り,最先端のアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2024-05-10T03:16:07Z) - Gender inference: can chatGPT outperform common commercial tools? [0.0]
生成人工知能(AI)ツールChatGPTと、市販のリストベースおよび機械学習ベースの性推論ツール3つを比較した。
具体的には、オリンピック選手の大規模なデータセットを使用して、入力のバリエーション(例えば、ファーストネームとファーストネームとラストネーム)が予測の正確さにどのように影響するかを報告します。
ChatGPTは少なくともNamsorと同様に動作し、特に国または/または名字情報が利用可能な女性のサンプルでは、その性能に優れることが多い。
論文 参考訳(メタデータ) (2023-11-24T22:09:14Z) - Gendec: A Machine Learning-based Framework for Gender Detection from
Japanese Names [0.0]
本研究は,ロマジ,ヒラガナ,漢字の64,139名のフルネームと,その生物学的性別を併用した日本語名の性別検出のための新しいデータセットを提示する。
我々は,従来の機械学習技術や最先端の移動学習モデルなど,多様なアプローチを利用する日本語名から性別検出を行うフレームワークであるGendecを提案する。
論文 参考訳(メタデータ) (2023-11-18T07:46:59Z) - Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender
Perturbation over Fairytale Texts [87.62403265382734]
近年の研究では、伝統的な妖精は有害な性バイアスを伴っていることが示されている。
本研究は,ジェンダーの摂動に対する頑健さを評価することによって,言語モデルの学習バイアスを評価することを目的とする。
論文 参考訳(メタデータ) (2023-10-16T22:25:09Z) - Towards Understanding Gender-Seniority Compound Bias in Natural Language
Generation [64.65911758042914]
本研究では,事前学習したニューラルジェネレーションモデルにおける性別バイアスの程度に,高齢者がどのような影響を及ぼすかを検討する。
以上の結果から, GPT-2は, 両領域において, 女性を中年, 男性を中年として考えることにより, 偏見を増幅することが示された。
以上の結果から, GPT-2を用いて構築したNLPアプリケーションは, プロの能力において女性に害を与える可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:05:02Z) - Predicting gender of Brazilian names using deep learning [0.0]
一部の機械学習アルゴリズムは、この予測を十分に実行することができる。
ブラジル名のデータセットを使用して、モデルをトレーニングし、評価する。
一部のモデルは、90%以上のケースで正確に性別を予測する。
論文 参考訳(メタデータ) (2021-06-18T14:45:59Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - What's in a Name? -- Gender Classification of Names with Character Based
Machine Learning Models [6.805167389805055]
本稿では,登録ユーザの性別を宣言された名前に基づいて予測する問題を考察する。
1億人以上の利用者のファーストネームを分析したところ、性別は名前文字列の合成によって非常に効果的に分類できることがわかった。
論文 参考訳(メタデータ) (2021-02-07T01:01:32Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。