論文の概要: SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic
Specialisation for Chinese Sexism Detection in Social Media
- arxiv url: http://arxiv.org/abs/2211.08447v1
- Date: Tue, 15 Nov 2022 19:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:48:39.702263
- Title: SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic
Specialisation for Chinese Sexism Detection in Social Media
- Title(参考訳): SexWEs: ソーシャルメディアにおける中国語性検知のための言語間セマンティックスペシャライゼーションによるドメイン認識語埋め込み
- Authors: Aiqi Jiang, Arkaitz Zubiaga
- Abstract要約: ソーシャルメディアにおける性差別検出のための言語間ドメイン対応セマンティック・スペシャライゼーション・システムを開発した。
我々は、高リソース言語(英語)からの性差別のセマンティックリソースを活用し、ターゲット言語(中国語)の事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。
他の専門化アプローチや中国語のベースライン語ベクトルと比較すると,本質的評価と外生的評価の両方において,SexWEsの平均スコアは0.033と0.064である。
- 参考スコア(独自算出の注目度): 23.246615034191553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of sexism detection is to mitigate negative online content targeting
certain gender groups of people. However, the limited availability of labeled
sexism-related datasets makes it problematic to identify online sexism for
low-resource languages. In this paper, we address the task of automatic sexism
detection in social media for one low-resource language -- Chinese. Rather than
collecting new sexism data or building cross-lingual transfer learning models,
we develop a cross-lingual domain-aware semantic specialisation system in order
to make the most of existing data. Semantic specialisation is a technique for
retrofitting pre-trained distributional word vectors by integrating external
linguistic knowledge (such as lexico-semantic relations) into the specialised
feature space. To do this, we leverage semantic resources for sexism from a
high-resource language (English) to specialise pre-trained word vectors in the
target language (Chinese) to inject domain knowledge. We demonstrate the
benefit of our sexist word embeddings (SexWEs) specialised by our framework via
intrinsic evaluation of word similarity and extrinsic evaluation of sexism
detection. Compared with other specialisation approaches and Chinese baseline
word vectors, our SexWEs shows an average score improvement of 0.033 and 0.064
in both intrinsic and extrinsic evaluations, respectively. The ablative results
and visualisation of SexWEs also prove the effectiveness of our framework on
retrofitting word vectors in low-resource languages. Our code and
sexism-related word vectors will be publicly available.
- Abstract(参考訳): 性差別検出の目標は、特定の性別グループをターゲットにしたネガティブなオンラインコンテンツを緩和することである。
しかし、ラベル付き性差別関連データセットが限られたため、低リソース言語に対するオンライン性差別を特定することは問題となる。
本稿では,1つの低リソース言語である中国語に対するソーシャルメディアにおける性差別の自動検出の課題に対処する。
新しい性差別データを収集したり、言語間移動学習モデルを構築する代わりに、既存のデータを活用するために言語間ドメイン認識セマンティック・スペシャライゼーション・システムを開発する。
意味的特殊化(semantic specialization)は、外部言語知識(lexico-semantic relationsなど)を特殊化特徴空間に統合することにより、事前訓練された分布的単語ベクトルを再構築する技法である。
これを実現するために、ハイリソース言語(英語)からの性差別のためのセマンティックリソースを活用し、対象言語(中国語)における事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。
本研究は, セクシストの単語埋め込み(sexwes)の利点を, 単語類似性の固有評価とセクシズム検出の極端評価を通じて実証する。
他の特殊化手法や中国語のベースライン単語ベクトルと比較すると,本質的評価と外因的評価では平均スコアが0.033,0.064であった。
また,低リソース言語における単語ベクトルの再構成におけるSexWEsの有効性を検証した。
私たちのコードと性差別に関連する単語ベクトルは公開されます。
関連論文リスト
- The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文 参考訳(メタデータ) (2024-09-26T15:08:17Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias
in Speech Translation [20.39599469927542]
ジェンダーバイアスは言語技術に影響を及ぼす問題として広く認識されている。
現代の評価慣行のほとんどは、合成条件下での職業名詞の狭いセットに単語レベルの焦点をあてている。
このようなプロトコルは、性合意のモルフォシンタクティック連鎖を特徴とする文法性言語の重要な特徴を見落としている。
論文 参考訳(メタデータ) (2022-03-18T11:14:16Z) - Gender Bias in Text: Labeled Datasets and Lexicons [0.30458514384586394]
性別バイアスの自動検出には、性別バイアスデータセットと語彙の欠如がある。
関連文の収集,注釈付け,拡張によりラベル付きデータセットと網羅的辞書を提供する。
リリースされたデータセットとレキシコンは、Generic He、Generic She、Explicit Marking of Sex、Gendered Neologismsなど、複数のバイアスサブタイプにまたがっている。
論文 参考訳(メタデータ) (2022-01-21T12:44:51Z) - SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection [9.443571652110663]
中国初の性差別データセットであるSina Weibo Sexism Review(SWSR)データセットと、中国の大型レキシコンSexHateLexを提案する。
SWSRデータセットは、(i)性差別または非性差別、(ii)性差別カテゴリー、(iii)ターゲットタイプなど、さまざまなレベルの粒度のラベルを提供する。
我々は、最先端の機械学習モデルを用いた3つの性差別分類タスクの実験を行う。
論文 参考訳(メタデータ) (2021-08-06T12:06:40Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - "Call me sexist, but...": Revisiting Sexism Detection Using
Psychological Scales and Adversarial Samples [2.029924828197095]
我々は、性差別の異なる側面を心理学的尺度でそれらの実践に基礎を置いて概説する。
このスケールから、ソーシャルメディアにおける性差別のためのコードブックを導き、既存のデータセットや新しいデータセットに注釈を付けるために使用します。
結果は、現在の機械学習モデルは、性差別の非常に狭い言語マーカーの集合を拾い上げ、ドメイン外の例にうまく一般化しないことを示唆している。
論文 参考訳(メタデータ) (2020-04-27T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。