論文の概要: For the Underrepresented in Gender Bias Research: Chinese Name Gender
Prediction with Heterogeneous Graph Attention Network
- arxiv url: http://arxiv.org/abs/2302.00419v1
- Date: Wed, 1 Feb 2023 13:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 17:24:06.971421
- Title: For the Underrepresented in Gender Bias Research: Chinese Name Gender
Prediction with Heterogeneous Graph Attention Network
- Title(参考訳): ジェンダーバイアス研究における不足について:異種グラフ注意ネットワークを用いた中国語のジェンダー予測
- Authors: Zihao Pan, Kai Peng, Shuai Ling, Haipeng Zhang
- Abstract要約: コンポーネント関係における不均一性を捉え,文字の発音を組み込むために,中国異種グラフ注意(CHGAT)モデルを設計する。
我々のモデルは現在のツールをはるかに上回り、最先端のアルゴリズムよりも優れています。
私たちは、よりバランスのとれた複数文字のデータセットを、公式のソースから、私たちのコードとともにオープンソース化しました。
- 参考スコア(独自算出の注目度): 1.13608321568471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving gender equality is an important pillar for humankind's sustainable
future. Pioneering data-driven gender bias research is based on large-scale
public records such as scientific papers, patents, and company registrations,
covering female researchers, inventors and entrepreneurs, and so on. Since
gender information is often missing in relevant datasets, studies rely on tools
to infer genders from names. However, available open-sourced Chinese
gender-guessing tools are not yet suitable for scientific purposes, which may
be partially responsible for female Chinese being underrepresented in
mainstream gender bias research and affect their universality. Specifically,
these tools focus on character-level information while overlooking the fact
that the combinations of Chinese characters in multi-character names, as well
as the components and pronunciations of characters, convey important messages.
As a first effort, we design a Chinese Heterogeneous Graph Attention (CHGAT)
model to capture the heterogeneity in component relationships and incorporate
the pronunciations of characters. Our model largely surpasses current tools and
also outperforms the state-of-the-art algorithm. Last but not least, the most
popular Chinese name-gender dataset is single-character based with far less
female coverage from an unreliable source, naturally hindering relevant
studies. We open-source a more balanced multi-character dataset from an
official source together with our code, hoping to help future research
promoting gender equality.
- Abstract(参考訳): 男女平等の実現は、人類の持続可能な未来にとって重要な柱である。
データ駆動性バイアス研究のパイオニア化は、科学論文、特許、企業登録などの大規模な公開記録に基づいており、女性研究者、発明家、起業家などをカバーする。
性別情報はしばしば関連するデータセットに欠けているため、研究は名前から性別を推測するツールに依存している。
しかし、利用可能なオープンソースである中国のジェンダーグジェスティングツールは科学的目的にはまだ適していないため、女性中国人が主流のジェンダーバイアス研究で過小評価され、その普遍性に影響を与える可能性がある。
具体的には、複数の文字名の漢字の組み合わせや、文字の構成要素や発音が重要なメッセージを伝えるという事実を見越しながら、文字レベルの情報に焦点を当てている。
最初の試みとして,中国の異種グラフ注意(CHGAT)モデルを設計し,成分関係の不均一性を捉え,文字の発音を組み込む。
我々のモデルは現在のツールをはるかに上回り、最先端のアルゴリズムよりも優れています。
最後に、最も人気のある中国の名前生成データセットは、信頼性の低いソースからの女性のカバレッジがはるかに低く、当然関連する研究を妨げるシングルキャラクタである。
私たちは、私たちのコードとともに、よりバランスの取れたマルチ文字データセットを公式ソースからオープンソースとして公開しています。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - For the Misgendered Chinese in Gender Bias Research: Multi-Task Learning with Knowledge Distillation for Pinyin Name-Gender Prediction [8.287754685560815]
我々は、Pinyinの名前と性別の推測問題を定式化し、知識蒸留によるマルチタスク学習ネットワークを設計する。
当社のオープンソース手法は,9.70%から20.08%の精度で商品名と性別の推測ツールを上回り,最先端のアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2024-05-10T03:16:07Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Gender inference: can chatGPT outperform common commercial tools? [0.0]
生成人工知能(AI)ツールChatGPTと、市販のリストベースおよび機械学習ベースの性推論ツール3つを比較した。
具体的には、オリンピック選手の大規模なデータセットを使用して、入力のバリエーション(例えば、ファーストネームとファーストネームとラストネーム)が予測の正確さにどのように影響するかを報告します。
ChatGPTは少なくともNamsorと同様に動作し、特に国または/または名字情報が利用可能な女性のサンプルでは、その性能に優れることが多い。
論文 参考訳(メタデータ) (2023-11-24T22:09:14Z) - The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender
Characterisation in 55 Languages [51.2321117760104]
本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。
このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。
本稿では、WMTのトレーニングデータとNewsタスクの開発データにジェンダー表現を報告し、現在のデータが男性表現にスキューされていることを確認する。
論文 参考訳(メタデータ) (2023-08-31T17:20:50Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation [28.38578407487603]
高品質なラベル付き32.9k文を含む中国語cOrpus foR Gender bIas Probing and Mitigation CORGI-PMを提案する。
我々は,テキスト性バイアスを自動的に検出し,分類し,緩和するモデルを必要とする,テキスト性バイアスを緩和する3つの課題に対処する。
CORGI-PMは、性偏見と緩和のための最初の文レベルの中国語コーパスである。
論文 参考訳(メタデータ) (2023-01-01T12:48:12Z) - Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution
and Machine Translation [10.542861450223128]
3つのドメインのコーパスにおいて,ステレオタイプおよび非ステレオタイプなジェンダーロール代入を示す文法パターンが発見された。
我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。
論文 参考訳(メタデータ) (2021-09-08T18:14:11Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。