論文の概要: For the Misgendered Chinese in Gender Bias Research: Multi-Task Learning with Knowledge Distillation for Pinyin Name-Gender Prediction
- arxiv url: http://arxiv.org/abs/2405.06221v1
- Date: Fri, 10 May 2024 03:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:47:25.791471
- Title: For the Misgendered Chinese in Gender Bias Research: Multi-Task Learning with Knowledge Distillation for Pinyin Name-Gender Prediction
- Title(参考訳): ジェンダーバイアス研究におけるミスジェンダー中国語:ピニインネーム・ジェンダー予測のための知識蒸留によるマルチタスク学習
- Authors: Xiaocong Du, Haipeng Zhang,
- Abstract要約: 我々は、Pinyinの名前と性別の推測問題を定式化し、知識蒸留によるマルチタスク学習ネットワークを設計する。
当社のオープンソース手法は,9.70%から20.08%の精度で商品名と性別の推測ツールを上回り,最先端のアルゴリズムを上回ります。
- 参考スコア(独自算出の注目度): 8.287754685560815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving gender equality is a pivotal factor in realizing the UN's Global Goals for Sustainable Development. Gender bias studies work towards this and rely on name-based gender inference tools to assign individual gender labels when gender information is unavailable. However, these tools often inaccurately predict gender for Chinese Pinyin names, leading to potential bias in such studies. With the growing participation of Chinese in international activities, this situation is becoming more severe. Specifically, current tools focus on pronunciation (Pinyin) information, neglecting the fact that the latent connections between Pinyin and Chinese characters (Hanzi) behind convey critical information. As a first effort, we formulate the Pinyin name-gender guessing problem and design a Multi-Task Learning Network assisted by Knowledge Distillation that enables the Pinyin embeddings in the model to possess semantic features of Chinese characters and to learn gender information from Chinese character names. Our open-sourced method surpasses commercial name-gender guessing tools by 9.70\% to 20.08\% relatively, and also outperforms the state-of-the-art algorithms.
- Abstract(参考訳): ジェンダー平等を達成することは、国連の持続可能な開発のためのグローバル目標を実現する上で重要な要素である。
ジェンダーバイアス研究はこれに取り組み、性別情報が利用できない場合、性別ラベルを個別に割り当てるために名前に基づく性別推定ツールに依存している。
しかしながら、これらのツールは、しばしば中国のピニイン名の性別を不正確に予測し、そのような研究に潜在的なバイアスをもたらす。
国際活動における中国人の参加の増加に伴い、この状況はますます深刻化しつつある。
特に、現在のツールは発音(ピニイン)の情報に重点を置いており、ピニインと漢字(ハンジ)の潜伏したつながりが重要な情報を伝えるという事実を無視している。
最初の試みとして、Pinyinの名前と性別の推測問題を定式化し、知識蒸留によるマルチタスク学習ネットワークを設計し、モデルにPinyinを埋め込み、漢字の意味的特徴を持ち、中国語の文字名から性別情報を学習できるようにする。
当社のオープンソース手法は,9.70 % から20.08 % の商業名・性別推定ツールをはるかに上回り,最先端のアルゴリズムよりも優れている。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Gendec: A Machine Learning-based Framework for Gender Detection from
Japanese Names [0.0]
本研究は,ロマジ,ヒラガナ,漢字の64,139名のフルネームと,その生物学的性別を併用した日本語名の性別検出のための新しいデータセットを提示する。
我々は,従来の機械学習技術や最先端の移動学習モデルなど,多様なアプローチを利用する日本語名から性別検出を行うフレームワークであるGendecを提案する。
論文 参考訳(メタデータ) (2023-11-18T07:46:59Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Gender, names and other mysteries: Towards the ambiguous for
gender-inclusive translation [7.322734499960981]
本稿では,元文が明示的なジェンダーマーカーを欠いている場合について考察するが,目的文はより豊かな文法的ジェンダーによってそれらを含む。
MTデータ中の多くの名前と性別の共起は、ソース言語の「あいまいな性別」で解決できないことがわかった。
ジェンダー・インクルージョンの両面での曖昧さを受け入れるジェンダー・インクルージョン・トランスフォーメーションの可能性について論じる。
論文 参考訳(メタデータ) (2023-06-07T16:21:59Z) - For the Underrepresented in Gender Bias Research: Chinese Name Gender
Prediction with Heterogeneous Graph Attention Network [1.13608321568471]
コンポーネント関係における不均一性を捉え,文字の発音を組み込むために,中国異種グラフ注意(CHGAT)モデルを設計する。
我々のモデルは現在のツールをはるかに上回り、最先端のアルゴリズムよりも優れています。
私たちは、よりバランスのとれた複数文字のデータセットを、公式のソースから、私たちのコードとともにオープンソース化しました。
論文 参考訳(メタデータ) (2023-02-01T13:08:50Z) - Towards Understanding Gender-Seniority Compound Bias in Natural Language
Generation [64.65911758042914]
本研究では,事前学習したニューラルジェネレーションモデルにおける性別バイアスの程度に,高齢者がどのような影響を及ぼすかを検討する。
以上の結果から, GPT-2は, 両領域において, 女性を中年, 男性を中年として考えることにより, 偏見を増幅することが示された。
以上の結果から, GPT-2を用いて構築したNLPアプリケーションは, プロの能力において女性に害を与える可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:05:02Z) - Gender Bias Hidden Behind Chinese Word Embeddings: The Case of Chinese
Adjectives [0.0]
本論文は,中国語形容詞の独特な視点から,静的単語埋め込みにおける性別バイアスについて検討する。
生成した結果と人間によって表されたデータセットを比較することで,単語埋め込みに符号化された性別バイアスが人々の態度とどのように異なるかを示す。
論文 参考訳(メタデータ) (2021-06-01T02:12:45Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - Gender Prediction Based on Vietnamese Names with Machine Learning
Techniques [2.7528170226206443]
ベトナム語名に基づくジェンダー予測のための新しいデータセットを提案する。
このデータセットは、性別で注釈付けされた26,000以上のフルネームで構成されている。
本稿では、6つの機械学習アルゴリズムと、ベトナム語の性別予測のための高速テキスト単語埋め込みを用いた深層学習モデル(LSTM)について述べる。
論文 参考訳(メタデータ) (2020-10-21T09:25:48Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。