論文の概要: SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic
Specialisation for Chinese Sexism Detection in Social Media
- arxiv url: http://arxiv.org/abs/2211.08447v2
- Date: Thu, 17 Nov 2022 13:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:56:31.317065
- Title: SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic
Specialisation for Chinese Sexism Detection in Social Media
- Title(参考訳): SexWEs: ソーシャルメディアにおける中国語性検知のための言語間セマンティックスペシャライゼーションによるドメイン認識語埋め込み
- Authors: Aiqi Jiang, Arkaitz Zubiaga
- Abstract要約: ソーシャルメディアにおける性差別検出のための言語間ドメイン対応セマンティック・スペシャライゼーション・システムを開発した。
我々は、高リソース言語(英語)からの性差別のセマンティックリソースを活用し、ターゲット言語(中国語)の事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。
他の専門化アプローチや中国語のベースライン語ベクトルと比較すると,本質的評価と外生的評価の両方において,SexWEsの平均スコアは0.033と0.064である。
- 参考スコア(独自算出の注目度): 23.246615034191553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of sexism detection is to mitigate negative online content targeting
certain gender groups of people. However, the limited availability of labeled
sexism-related datasets makes it problematic to identify online sexism for
low-resource languages. In this paper, we address the task of automatic sexism
detection in social media for one low-resource language -- Chinese. Rather than
collecting new sexism data or building cross-lingual transfer learning models,
we develop a cross-lingual domain-aware semantic specialisation system in order
to make the most of existing data. Semantic specialisation is a technique for
retrofitting pre-trained distributional word vectors by integrating external
linguistic knowledge (such as lexico-semantic relations) into the specialised
feature space. To do this, we leverage semantic resources for sexism from a
high-resource language (English) to specialise pre-trained word vectors in the
target language (Chinese) to inject domain knowledge. We demonstrate the
benefit of our sexist word embeddings (SexWEs) specialised by our framework via
intrinsic evaluation of word similarity and extrinsic evaluation of sexism
detection. Compared with other specialisation approaches and Chinese baseline
word vectors, our SexWEs shows an average score improvement of 0.033 and 0.064
in both intrinsic and extrinsic evaluations, respectively. The ablative results
and visualisation of SexWEs also prove the effectiveness of our framework on
retrofitting word vectors in low-resource languages. Our code and
sexism-related word vectors will be publicly available.
- Abstract(参考訳): 性差別検出の目標は、特定の性別グループをターゲットにしたネガティブなオンラインコンテンツを緩和することである。
しかし、ラベル付き性差別関連データセットが限られたため、低リソース言語に対するオンライン性差別を特定することは問題となる。
本稿では,1つの低リソース言語である中国語に対するソーシャルメディアにおける性差別の自動検出の課題に対処する。
新しい性差別データを収集したり、言語間移動学習モデルを構築する代わりに、既存のデータを活用するために言語間ドメイン認識セマンティック・スペシャライゼーション・システムを開発する。
意味的特殊化(semantic specialization)は、外部言語知識(lexico-semantic relationsなど)を特殊化特徴空間に統合することにより、事前訓練された分布的単語ベクトルを再構築する技法である。
これを実現するために、ハイリソース言語(英語)からの性差別のためのセマンティックリソースを活用し、対象言語(中国語)における事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。
本研究は, セクシストの単語埋め込み(sexwes)の利点を, 単語類似性の固有評価とセクシズム検出の極端評価を通じて実証する。
他の特殊化手法や中国語のベースライン単語ベクトルと比較すると,本質的評価と外因的評価では平均スコアが0.033,0.064であった。
また,低リソース言語における単語ベクトルの再構成におけるSexWEsの有効性を検証した。
私たちのコードと性差別に関連する単語ベクトルは公開されます。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in
Multilingual Machine Translation [28.471506840241602]
ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。
本稿では,新しいアプローチに基づくバイアス緩和手法を提案する。
Gender-Aware Contrastive Learning, GACLは、文脈性情報を非明示性単語の表現にエンコードする。
論文 参考訳(メタデータ) (2023-05-23T12:53:39Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias
in Speech Translation [20.39599469927542]
ジェンダーバイアスは言語技術に影響を及ぼす問題として広く認識されている。
現代の評価慣行のほとんどは、合成条件下での職業名詞の狭いセットに単語レベルの焦点をあてている。
このようなプロトコルは、性合意のモルフォシンタクティック連鎖を特徴とする文法性言語の重要な特徴を見落としている。
論文 参考訳(メタデータ) (2022-03-18T11:14:16Z) - Gender Bias in Text: Labeled Datasets and Lexicons [0.30458514384586394]
性別バイアスの自動検出には、性別バイアスデータセットと語彙の欠如がある。
関連文の収集,注釈付け,拡張によりラベル付きデータセットと網羅的辞書を提供する。
リリースされたデータセットとレキシコンは、Generic He、Generic She、Explicit Marking of Sex、Gendered Neologismsなど、複数のバイアスサブタイプにまたがっている。
論文 参考訳(メタデータ) (2022-01-21T12:44:51Z) - SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection [9.443571652110663]
中国初の性差別データセットであるSina Weibo Sexism Review(SWSR)データセットと、中国の大型レキシコンSexHateLexを提案する。
SWSRデータセットは、(i)性差別または非性差別、(ii)性差別カテゴリー、(iii)ターゲットタイプなど、さまざまなレベルの粒度のラベルを提供する。
我々は、最先端の機械学習モデルを用いた3つの性差別分類タスクの実験を行う。
論文 参考訳(メタデータ) (2021-08-06T12:06:40Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - They, Them, Theirs: Rewriting with Gender-Neutral English [56.14842450974887]
私たちは、英語でジェンダーインクルージョンを促進する一般的な方法である特異点についてケーススタディを行います。
本研究では, 人為的データを持たない1%の単語誤り率で, ジェンダーニュートラルな英語を学習できるモデルについて述べる。
論文 参考訳(メタデータ) (2021-02-12T21:47:48Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - "Call me sexist, but...": Revisiting Sexism Detection Using
Psychological Scales and Adversarial Samples [2.029924828197095]
我々は、性差別の異なる側面を心理学的尺度でそれらの実践に基礎を置いて概説する。
このスケールから、ソーシャルメディアにおける性差別のためのコードブックを導き、既存のデータセットや新しいデータセットに注釈を付けるために使用します。
結果は、現在の機械学習モデルは、性差別の非常に狭い言語マーカーの集合を拾い上げ、ドメイン外の例にうまく一般化しないことを示唆している。
論文 参考訳(メタデータ) (2020-04-27T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。