論文の概要: The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification
- arxiv url: http://arxiv.org/abs/2409.17929v1
- Date: Thu, 26 Sep 2024 15:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 17:03:54.325329
- Title: The Lou Dataset -- Exploring the Impact of Gender-Fair Language in German Text Classification
- Title(参考訳): ラウデータセット - ドイツ語テキスト分類におけるジェンダーフェア言語の影響を探る
- Authors: Andreas Waldis, Joel Birrer, Anne Lauscher, Iryna Gurevych,
- Abstract要約: ジェンダーフェア言語は、すべての性別に対処したり、中立形を使用することによって包摂性を促進する。
ジェンダーフェア言語はラベルを反転させ、確実性を減らし、注意パターンを変化させることで予測に大きな影響を及ぼす。
ドイツ語のテキスト分類への影響について最初の知見を提供する一方で、他の言語にもその知見が当てはまる可能性が高い。
- 参考スコア(独自算出の注目度): 57.06913662622832
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Gender-fair language, an evolving German linguistic variation, fosters inclusion by addressing all genders or using neutral forms. Nevertheless, there is a significant lack of resources to assess the impact of this linguistic shift on classification using language models (LMs), which are probably not trained on such variations. To address this gap, we present Lou, the first dataset featuring high-quality reformulations for German text classification covering seven tasks, like stance detection and toxicity classification. Evaluating 16 mono- and multi-lingual LMs on Lou shows that gender-fair language substantially impacts predictions by flipping labels, reducing certainty, and altering attention patterns. However, existing evaluations remain valid, as LM rankings of original and reformulated instances do not significantly differ. While we offer initial insights on the effect on German text classification, the findings likely apply to other languages, as consistent patterns were observed in multi-lingual and English LMs.
- Abstract(参考訳): ジェンダーフェア言語(ドイツ語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language、英語: Gender-fair language)は、ドイツの言語である。
それにもかかわらず、言語モデル(LM)を用いた分類におけるこの言語シフトの影響を評価するためのリソースが著しく不足している。
このギャップに対処するため,ドイツのテキスト分類において,姿勢検出や毒性分類などの7つのタスクをカバーする高品質な修正を特徴とする最初のデータセットであるLouを提示する。
Lou上での16個の単言語および多言語LMの評価は、性同一性言語がラベルを反転させ、確実性を低減し、注意パターンを変化させることによって予測に重大な影響を及ぼすことを示している。
しかし、オリジナルとリフォームされたインスタンスのLMランキングは大きな違いがないため、既存の評価は依然として有効である。
ドイツ語のテキスト分類に対する最初の知見は得られなかったが,多言語および英語のLMで一貫したパターンが観察されたことから,他の言語にも適用できる可能性が示唆された。
関連論文リスト
- Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora [9.959039325564744]
テキストコーパスにおけるジェンダーバイアスは、社会的不平等の永続性と増幅につながる可能性がある。
テキストコーパスにおけるジェンダー表現バイアスを計測する既存の手法は、主に英語で提案されている。
本稿では,スペインのコーパスにおけるジェンダー表現バイアスを定量的に測定する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T16:30:58Z) - Investigating Markers and Drivers of Gender Bias in Machine Translations [0.0]
大型言語モデル(LLM)におけるインプシット性バイアスは、文書化された問題である。
我々は、DeepL翻訳APIを使用して、56のソフトウェアエンジニアリングタスクを繰り返し翻訳する際に生じるバイアスを調査する。
いくつかの言語は、類似した代名詞の使用パターンを示し、3つの緩いグループに分類する。
文中に出現する主動詞は,翻訳における意味のあるジェンダーの要因である可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-18T15:54:46Z) - Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps [25.95711246919163]
現在の自動音声認識(ASR)モデルは、多くの言語やタスクでかなりの変更を加えることなく使用できるように設計されている。
本研究では,3つのデータセット上で広く使用されている2つの多言語ASRモデルの性能を体系的に評価する。
以上の結果から,言語やモデルによって異なる傾向がみられた。
論文 参考訳(メタデータ) (2024-02-28T00:24:29Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Easy Adaptation to Mitigate Gender Bias in Multilingual Text
Classification [8.137681060429527]
ジェンダーをドメインとして扱い、標準領域適応モデルを示し、ジェンダーバイアスを低減する。
ヘイトスピーチ検出とレーティング予測という2つのテキスト分類タスクに対するアプローチを評価し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-04-12T01:15:36Z) - Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias
in Speech Translation [20.39599469927542]
ジェンダーバイアスは言語技術に影響を及ぼす問題として広く認識されている。
現代の評価慣行のほとんどは、合成条件下での職業名詞の狭いセットに単語レベルの焦点をあてている。
このようなプロトコルは、性合意のモルフォシンタクティック連鎖を特徴とする文法性言語の重要な特徴を見落としている。
論文 参考訳(メタデータ) (2022-03-18T11:14:16Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。