論文の概要: CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation
- arxiv url: http://arxiv.org/abs/2301.00395v1
- Date: Sun, 1 Jan 2023 12:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:31:20.490818
- Title: CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation
- Title(参考訳): CORGI-PM:中国のジェンダーバイアス調査と緩和のための企業
- Authors: Ge Zhang, Yizhi Li, Yaoyao Wu, Linyuan Zhang, Chenghua Lin, Jiayi
Geng, Shi Wang, Jie Fu
- Abstract要約: 高品質なラベル付き32.9k文を含む中国語cOrpus foR Gender bIas Probing and Mitigation CORGI-PMを提案する。
我々は,テキスト性バイアスを自動的に検出し,分類し,緩和するモデルを必要とする,テキスト性バイアスを緩和する3つの課題に対処する。
CORGI-PMは、性偏見と緩和のための最初の文レベルの中国語コーパスである。
- 参考スコア(独自算出の注目度): 28.38578407487603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As natural language processing (NLP) for gender bias becomes a significant
interdisciplinary topic, the prevalent data-driven techniques such as
large-scale language models suffer from data inadequacy and biased corpus,
especially for languages with insufficient resources such as Chinese. To this
end, we propose a Chinese cOrpus foR Gender bIas Probing and Mitigation
CORGI-PM, which contains 32.9k sentences with high-quality labels derived by
following an annotation scheme specifically developed for gender bias in the
Chinese context. Moreover, we address three challenges for automatic textual
gender bias mitigation, which requires the models to detect, classify, and
mitigate textual gender bias. We also conduct experiments with state-of-the-art
language models to provide baselines. To our best knowledge, CORGI-PM is the
first sentence-level Chinese corpus for gender bias probing and mitigation.
- Abstract(参考訳): ジェンダーバイアスに対する自然言語処理(NLP)が重要な学際的トピックとなるにつれ、大規模言語モデルのような一般的なデータ駆動技術は、特に中国語のような不十分な資源を持つ言語では、データ不足や偏りのあるコーパスに悩まされる。
そこで本研究では,中国におけるジェンダーバイアス専用に開発されたアノテーション・スキームに従って,高品質のラベル付き32.9k文を含む,性バイアスの探索と緩和のための中国語コーパスを提案する。
さらに,テキスト性バイアスの検出,分類,緩和をモデルに要求する,テキスト性バイアス自動軽減のための3つの課題に対処した。
また,最先端言語モデルを用いて実験を行い,ベースラインを提供する。
我々の知る限りでは、CORGI-PMは性偏見と緩和のための最初の文レベルの中国語コーパスである。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - Gender Bias in Large Language Models across Multiple Languages [10.068466432117113]
異なる言語で生成される大言語モデル(LLM)の性別バイアスについて検討する。
1) 性別関連文脈から記述的単語を選択する際の性別バイアス。
2) 性別関連代名詞を選択する際の性別バイアスは, 記述語を付与する。
論文 参考訳(メタデータ) (2024-03-01T04:47:16Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - On Evaluating and Mitigating Gender Biases in Multilingual Settings [5.248564173595024]
複数言語設定におけるバイアスの評価と緩和に関する課題について検討する。
まず,事前学習したマスキング言語モデルにおいて,性別バイアスを評価するベンチマークを作成する。
我々は、様々なデバイアス法を英語以上に拡張し、SOTAの大規模多言語モデルの有効性を評価する。
論文 参考訳(メタデータ) (2023-07-04T06:23:04Z) - Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in
Multilingual Machine Translation [28.471506840241602]
ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。
本稿では,新しいアプローチに基づくバイアス緩和手法を提案する。
Gender-Aware Contrastive Learning, GACLは、文脈性情報を非明示性単語の表現にエンコードする。
論文 参考訳(メタデータ) (2023-05-23T12:53:39Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Evaluating Gender Bias in Natural Language Inference [5.034017602990175]
推論による自然言語理解における性別バイアスの評価手法を提案する。
チャレンジタスクを使用して、職業を用いたジェンダーステレオタイプの存在に関する最先端のNLIモデルを調査します。
その結果,mnliとsnliデータセットでトレーニングされた3モデルでは,性別による予測誤差が有意に高いことが示唆された。
論文 参考訳(メタデータ) (2021-05-12T09:41:51Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。