Fugu-MT 論文翻訳(概要): SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic Specialisation for Chinese Sexism Detection in Social Media

論文の概要: SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic Specialisation for Chinese Sexism Detection in Social Media

arxiv url: http://arxiv.org/abs/2211.08447v2
Date: Thu, 17 Nov 2022 13:05:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 12:56:31.317065
Title: SexWEs: Domain-Aware Word Embeddings via Cross-lingual Semantic Specialisation for Chinese Sexism Detection in Social Media
Title（参考訳）: SexWEs: ソーシャルメディアにおける中国語性検知のための言語間セマンティックスペシャライゼーションによるドメイン認識語埋め込み
Authors: Aiqi Jiang, Arkaitz Zubiaga
Abstract要約: ソーシャルメディアにおける性差別検出のための言語間ドメイン対応セマンティック・スペシャライゼーション・システムを開発した。我々は、高リソース言語(英語)からの性差別のセマンティックリソースを活用し、ターゲット言語(中国語)の事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。他の専門化アプローチや中国語のベースライン語ベクトルと比較すると,本質的評価と外生的評価の両方において,SexWEsの平均スコアは0.033と0.064である。
参考スコア（独自算出の注目度）: 23.246615034191553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal of sexism detection is to mitigate negative online content targeting certain gender groups of people. However, the limited availability of labeled sexism-related datasets makes it problematic to identify online sexism for low-resource languages. In this paper, we address the task of automatic sexism detection in social media for one low-resource language -- Chinese. Rather than collecting new sexism data or building cross-lingual transfer learning models, we develop a cross-lingual domain-aware semantic specialisation system in order to make the most of existing data. Semantic specialisation is a technique for retrofitting pre-trained distributional word vectors by integrating external linguistic knowledge (such as lexico-semantic relations) into the specialised feature space. To do this, we leverage semantic resources for sexism from a high-resource language (English) to specialise pre-trained word vectors in the target language (Chinese) to inject domain knowledge. We demonstrate the benefit of our sexist word embeddings (SexWEs) specialised by our framework via intrinsic evaluation of word similarity and extrinsic evaluation of sexism detection. Compared with other specialisation approaches and Chinese baseline word vectors, our SexWEs shows an average score improvement of 0.033 and 0.064 in both intrinsic and extrinsic evaluations, respectively. The ablative results and visualisation of SexWEs also prove the effectiveness of our framework on retrofitting word vectors in low-resource languages. Our code and sexism-related word vectors will be publicly available.
Abstract（参考訳）: 性差別検出の目標は、特定の性別グループをターゲットにしたネガティブなオンラインコンテンツを緩和することである。しかし、ラベル付き性差別関連データセットが限られたため、低リソース言語に対するオンライン性差別を特定することは問題となる。本稿では,1つの低リソース言語である中国語に対するソーシャルメディアにおける性差別の自動検出の課題に対処する。新しい性差別データを収集したり、言語間移動学習モデルを構築する代わりに、既存のデータを活用するために言語間ドメイン認識セマンティック・スペシャライゼーション・システムを開発する。意味的特殊化(semantic specialization)は、外部言語知識(lexico-semantic relationsなど)を特殊化特徴空間に統合することにより、事前訓練された分布的単語ベクトルを再構築する技法である。これを実現するために、ハイリソース言語(英語)からの性差別のためのセマンティックリソースを活用し、対象言語(中国語)における事前学習された単語ベクトルを専門化し、ドメイン知識を注入する。本研究は, セクシストの単語埋め込み(sexwes)の利点を, 単語類似性の固有評価とセクシズム検出の極端評価を通じて実証する。他の特殊化手法や中国語のベースライン単語ベクトルと比較すると,本質的評価と外因的評価では平均スコアが0.033,0.064であった。また,低リソース言語における単語ベクトルの再構成におけるSexWEsの有効性を検証した。私たちのコードと性差別に関連する単語ベクトルは公開されます。

関連論文リスト

Beyond Binary Classification: Detecting Fine-Grained Sexism in Social Media Videos [12.430871103040275]
我々はスペイン語で新しいマルチモーダル性差別検出データセットであるFineMuSeを紹介する。また、セクシズム、非セクシズム、および皮肉とユーモアの修辞的な装置を包含する包括的階層的分類も導入する。以上の結果から, マルチモーダルLPMは, 性差別の微妙な形態を識別する上で, 人間のアノテータと競争的に機能することが示唆された。
論文参考訳（メタデータ） (2026-02-17T17:45:28Z)
BioPro: On Difference-Aware Gender Fairness for Vision-Language Models [50.40913324046528]
VLM(Vision-Language Models)は、特にジェンダー表現において、トレーニングデータから重要な社会的バイアスを継承する。我々は、画像キャプションとテキスト・ツー・イメージ生成における差認識性フェアネスの問題を定式化するために、テキストのみのモデルにおける差認識性フェアネスの最近の進歩の上に構築する。我々は、中立な文脈における望ましくないバイアスを軽減し、明示的な文脈における有効な区別を保ちながら、BioProを提案する。
論文参考訳（メタデータ） (2025-11-30T09:33:09Z)
Dataset Creation and Baseline Models for Sexism Detection in Hausa [0.0]
本研究では、コミュニティエンゲージメント、質的コーディング、データ拡張を通じて開発された最初のハウサ性差別検出データセットを紹介する。文化的ニュアンスと言語表現について,母国語話者による2段階のユーザスタディを行い,日常の言説の中で性差別がどのように定義され,具体化されているかを検討した。本研究は, 文化的ニュアンス, 特に明確化検索, 慣用的表現の獲得における課題を浮き彫りにして, 偽陽性の傾向を明らかにした。
論文参考訳（メタデータ） (2025-10-30T22:57:35Z)
Identifying Gender Stereotypes and Biases in Automated Translation from English to Italian using Similarity Networks [0.25049267048783647]
本論文は,自動翻訳システムにおけるステレオタイプとバイアスを評価するために,言語学,法学,計算機科学の協力的な取り組みである。ジェンダーインクルージョンを促進し,機械翻訳の客観性を向上させる手段として,ジェンダーニュートラル翻訳を提唱する。
論文参考訳（メタデータ） (2025-02-17T09:55:32Z)
Mind the Inclusivity Gap: Multilingual Gender-Neutral Translation Evaluation with mGeNTE [34.11872938329087]
ジェンダーニュートラル翻訳(GNT)は、言語間のより公平なコミュニケーションに向けた言語戦略である。我々は、専門家によるリソースであるmGeNTEを導入し、包括的翻訳の最初の体系的多言語的評価を行う。 en-es/de/it/elの実験では、モデルが中立性が適切かどうかを認識できるが、中立的な翻訳を一貫して生成することはできないことが明らかになった。
論文参考訳（メタデータ） (2025-01-16T09:35:15Z)
The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification [57.06913662622832]
ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
論文参考訳（メタデータ） (2024-09-26T15:08:17Z)
Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文参考訳（メタデータ） (2024-07-23T08:13:51Z)
Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文参考訳（メタデータ） (2024-06-19T16:30:58Z)
Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文参考訳（メタデータ） (2022-04-20T00:13:01Z)
Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias in Speech Translation [20.39599469927542]
ジェンダーバイアスは言語技術に影響を及ぼす問題として広く認識されている。現代の評価慣行のほとんどは、合成条件下での職業名詞の狭いセットに単語レベルの焦点をあてている。このようなプロトコルは、性合意のモルフォシンタクティック連鎖を特徴とする文法性言語の重要な特徴を見落としている。
論文参考訳（メタデータ） (2022-03-18T11:14:16Z)
Gender Bias in Text: Labeled Datasets and Lexicons [0.30458514384586394]
性別バイアスの自動検出には、性別バイアスデータセットと語彙の欠如がある。関連文の収集,注釈付け,拡張によりラベル付きデータセットと網羅的辞書を提供する。リリースされたデータセットとレキシコンは、Generic He、Generic She、Explicit Marking of Sex、Gendered Neologismsなど、複数のバイアスサブタイプにまたがっている。
論文参考訳（メタデータ） (2022-01-21T12:44:51Z)
SWSR: A Chinese Dataset and Lexicon for Online Sexism Detection [9.443571652110663]
中国初の性差別データセットであるSina Weibo Sexism Review(SWSR)データセットと、中国の大型レキシコンSexHateLexを提案する。 SWSRデータセットは、(i)性差別または非性差別、(ii)性差別カテゴリー、(iii)ターゲットタイプなど、さまざまなレベルの粒度のラベルを提供する。我々は、最先端の機械学習モデルを用いた3つの性差別分類タスクの実験を行う。
論文参考訳（メタデータ） (2021-08-06T12:06:40Z)
Learning Domain-Specialised Representations for Cross-Lingual Biomedical Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文参考訳（メタデータ） (2021-05-30T00:50:00Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文参考訳（メタデータ） (2020-05-02T04:34:37Z)
"Call me sexist, but...": Revisiting Sexism Detection Using Psychological Scales and Adversarial Samples [2.029924828197095]
我々は、性差別の異なる側面を心理学的尺度でそれらの実践に基礎を置いて概説する。このスケールから、ソーシャルメディアにおける性差別のためのコードブックを導き、既存のデータセットや新しいデータセットに注釈を付けるために使用します。結果は、現在の機械学習モデルは、性差別の非常に狭い言語マーカーの集合を拾い上げ、ドメイン外の例にうまく一般化しないことを示唆している。
論文参考訳（メタデータ） (2020-04-27T13:07:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。