論文の概要: SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection
- arxiv url: http://arxiv.org/abs/2108.03070v1
- Date: Fri, 6 Aug 2021 12:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 18:24:07.053831
- Title: SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection
- Title(参考訳): SWSR: オンライン性行為検出のための中国のデータセットとレキシコン
- Authors: Aiqi Jiang, Xiaohan Yang, Yang Liu, Arkaitz Zubiaga
- Abstract要約: 中国初の性差別データセットであるSina Weibo Sexism Review(SWSR)データセットと、中国の大型レキシコンSexHateLexを提案する。
SWSRデータセットは、(i)性差別または非性差別、(ii)性差別カテゴリー、(iii)ターゲットタイプなど、さまざまなレベルの粒度のラベルを提供する。
我々は、最先端の機械学習モデルを用いた3つの性差別分類タスクの実験を行う。
- 参考スコア(独自算出の注目度): 9.443571652110663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online sexism has become an increasing concern in social media platforms as
it has affected the healthy development of the Internet and can have negative
effects in society. While research in the sexism detection domain is growing,
most of this research focuses on English as the language and on Twitter as the
platform. Our objective here is to broaden the scope of this research by
considering the Chinese language on Sina Weibo. We propose the first Chinese
sexism dataset -- Sina Weibo Sexism Review (SWSR) dataset --, as well as a
large Chinese lexicon SexHateLex made of abusive and gender-related terms. We
introduce our data collection and annotation process, and provide an
exploratory analysis of the dataset characteristics to validate its quality and
to show how sexism is manifested in Chinese. The SWSR dataset provides labels
at different levels of granularity including (i) sexism or non-sexism, (ii)
sexism category and (iii) target type, which can be exploited, among others,
for building computational methods to identify and investigate finer-grained
gender-related abusive language. We conduct experiments for the three sexism
classification tasks making use of state-of-the-art machine learning models.
Our results show competitive performance, providing a benchmark for sexism
detection in the Chinese language, as well as an error analysis highlighting
open challenges needing more research in Chinese NLP. The SWSR dataset and
SexHateLex lexicon are publicly available.
- Abstract(参考訳): オンライン性差別は、インターネットの健全な発展に影響を及ぼし、社会に悪影響を及ぼす可能性があるため、ソーシャルメディアプラットフォームにおける関心が高まっている。
セクシズム検出領域の研究は増えているが、この研究のほとんどは英語を言語として、twitterをプラットフォームとして焦点を当てている。
本研究の目的は,sina weiboの中国語を考慮し,この研究の範囲を広げることである。
中国初の性差別データセットであるSina Weibo Sexism Review(SWSR)データセットと、虐待的およびジェンダー関連の用語で作られた大きな中国のレキシコンSexHateLexを提案する。
我々は,データ収集とアノテーションのプロセスを導入し,その品質を検証するためにデータセットの特徴を探索的に分析し,中国語で性差別がどのように現れるかを示す。
swsrデータセットは、(i)性差別または非性差別、(ii)性差別カテゴリーおよび(iii)ターゲットタイプを含む、異なるレベルの粒度のラベルを提供する。
最先端機械学習モデルを用いた3つの性差別分類タスクについて実験を行った。
以上の結果から,中国語における性差別検出のベンチマークや,中国語nlpのさらなる研究を必要とするオープン課題を強調するエラー分析を行った。
SWSRデータセットとSexHateLex lexiconが公開されている。
関連論文リスト
- GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - A multitask learning framework for leveraging subjectivity of annotators to identify misogyny [47.175010006458436]
本研究では,誤識別システムの性能向上を目的としたマルチタスク学習手法を提案する。
6つのプロファイルグループにまたがる性別と年齢を考慮したモデル設計において,アノテータからさまざまな視点を取り入れた。
本研究は、コンテンツモデレーションを推進し、効果的なオンラインモデレーションシステムを構築するための多様な視点を受け入れることの重要性を強調している。
論文 参考訳(メタデータ) (2024-06-22T15:06:08Z) - Bilingual Sexism Classification: Fine-Tuned XLM-RoBERTa and GPT-3.5 Few-Shot Learning [0.8192907805418581]
本研究の目的は、自然言語処理モデルを活用することにより、バイリンガル文脈(英語とスペイン語)における性差別の識別を改善することである。
我々はXLM-RoBERTaモデルを微調整し、性差別的コンテンツを分類するための数発の学習プロンプトでGPT-3.5を別々に使用した。
論文 参考訳(メタデータ) (2024-06-11T14:15:33Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - SemEval-2023 Task 10: Explainable Detection of Online Sexism [5.542286527528687]
オンライン性差別(EDOS)の説明可能な検出に関するSemEval Task 10について紹介する。
i)セクシズムの細粒度ベクトルを含むセクシズムコンテンツの新しい階層的分類,i)細粒度ラベルによる2万件のソーシャルメディアコメントデータセット,およびモデル適応のための大きな未ラベルデータセット,iii)ベースラインモデル,および,課題への参加者の提出方法,結果,エラーの分析である。
論文 参考訳(メタデータ) (2023-03-07T20:28:39Z) - CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation [28.38578407487603]
高品質なラベル付き32.9k文を含む中国語cOrpus foR Gender bIas Probing and Mitigation CORGI-PMを提案する。
我々は,テキスト性バイアスを自動的に検出し,分類し,緩和するモデルを必要とする,テキスト性バイアスを緩和する3つの課題に対処する。
CORGI-PMは、性偏見と緩和のための最初の文レベルの中国語コーパスである。
論文 参考訳(メタデータ) (2023-01-01T12:48:12Z) - SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic
Specialisation for Chinese Sexism Detection in Social Media [23.246615034191553]
性差別検出のための言語間ドメイン認識セマンティック・スペシャライゼーション・システムを開発した。
我々は、高リソース言語(英語)からの性差別のセマンティックリソースを活用し、ターゲット言語(中国語)の事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。
他の専門化アプローチや中国語のベースライン語ベクトルと比較すると,本質的評価と外生的評価の両方において,SexWEsの平均スコアは0.033と0.064である。
論文 参考訳(メタデータ) (2022-11-15T19:00:20Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - "Call me sexist, but...": Revisiting Sexism Detection Using
Psychological Scales and Adversarial Samples [2.029924828197095]
我々は、性差別の異なる側面を心理学的尺度でそれらの実践に基礎を置いて概説する。
このスケールから、ソーシャルメディアにおける性差別のためのコードブックを導き、既存のデータセットや新しいデータセットに注釈を付けるために使用します。
結果は、現在の機械学習モデルは、性差別の非常に狭い言語マーカーの集合を拾い上げ、ドメイン外の例にうまく一般化しないことを示唆している。
論文 参考訳(メタデータ) (2020-04-27T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。