論文の概要、ライセンス

# (参考訳) 有害言語検出のための自動デビアス化の課題 [全文訳有]

Challenges in Automated Debiasing for Toxic Language Detection ( http://arxiv.org/abs/2102.00086v1 )

ライセンス: CC BY 4.0
Xuhui Zhou, Maarten Sap, Swabha Swayamdipta, Noah A. Smith, Yejin Choi(参考訳) バイアス協会は、有毒な言語を検出するための分類器の開発において挑戦的であり、公平性と正確性の両方を妨げる。 近年,有毒な言語検出法として,テキスト分類データセットやモデルに対するデバイアス法が提案されている。 私たちの焦点は語彙(例えば、単語、スラリー、アイデンティティ言及)と方言マーカー(特にアフリカ系アメリカ人英語)である。 包括的実験により,現在の毒性検出装置では,既存の手法が偏りを防止できる能力に制限があることが確認された。 次に,概念実証として,方言認識データの自動補正手法を提案する。 合成ラベルの使用にもかかわらず、この方法は毒性との方言の関連を減らします。 以上の結果から,有毒な言語データに基づいてトレーニングされたモデルのデバイアス化は,既存のバイアスを取り除くために単にデータを緩和するほど効果的ではないことがわかった。

Biased associations have been a challenge in the development of classifiers for detecting toxic language, hindering both fairness and accuracy. As potential solutions, we investigate recently introduced debiasing methods for text classification datasets and models, as applied to toxic language detection. Our focus is on lexical (e.g., swear words, slurs, identity mentions) and dialectal markers (specifically African American English). Our comprehensive experiments establish that existing methods are limited in their ability to prevent biased behavior in current toxicity detectors. We then propose an automatic, dialect-aware data correction method, as a proof-of-concept. Despite the use of synthetic labels, this method reduces dialectal associations with toxicity. Overall, our findings show that debiasing a model trained on biased toxic language data is not as effective as simply relabeling the data to remove existing biases.
公開日: Fri, 29 Jan 2021 22:03:17 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Challenges in Automated Debiasing for Toxic Language Detection 有害言語検出のための自動デビアス化の課題 0.68
Xuhui Zhou♥ Maarten Sap♣ Swabha Swayamdipta♦ Noah A. Smith♣♦ Yejin Choi♣♦ Xuhui Zhou' Maarten Sap' Swabha Swayamdipta ノア・A・スミス・イエジン・チョイ 0.64
♣Paul G. Allen School of Computer Science & Engineering, University of Washington ワシントン大学コンピュータサイエンス・工学科のポール・G・アレン校 0.75
♥Department of Linguistics, University of Washington ワシントン大学言語学部 0.46
xuhuizh@uw.edu,{msap,yejin,nasmith}@cs.washington.edu, swabhas@allenai.org xuhuizh@uw.edu,{msap,yejin,nasmith}@cs.washington.edu, swabhas@allenai.org 0.85
♦Allen Institute for Artificial Intelligence アレン人工知能研究所 0.58
1 2 0 2 n a J 1 2 0 2 n a J 0.85
9 2 ] L C . 9 2 ] L C。 0.78
s c [ 1 v 6 8 0 0 0 sc [ 1 v 6 8 0 0 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract Warning: this paper contains content that may be offensive or upsetting. 概要 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。 0.57
Biased associations have been a challenge in the development of classifiers for detecting toxic language, hindering both fairness and accuracy. バイアス協会は、有毒な言語を検出するための分類器の開発において挑戦的であり、公平性と正確性の両方を妨げる。 0.54
As potential solutions, we investigate recently introduced debiasing methods for text classification datasets and models, as applied to toxic language detection. 近年,有毒な言語検出法として,テキスト分類データセットやモデルに対するデバイアス法が提案されている。 0.71
Our focus is on lexical (e.g., swear words, slurs, identity mentions) and dialectal markers (specifically African American English). 私たちの焦点は語彙(例えば、単語、スラリー、アイデンティティ言及)と方言マーカー(特にアフリカ系アメリカ人英語)である。 0.79
Our comprehensive experiments establish that existing methods are limited in their ability to prevent biased behavior in current toxicity detectors. 包括的実験により,現在の毒性検出装置では,既存の手法が偏りを防止できる能力に制限があることが確認された。
訳抜け防止モード: 総合的な実験によって 既存の方法は、現在の毒性検出器のバイアスド挙動を防止する能力に制限がある。
0.69
We then propose an automatic, dialect-aware data correction method, as a proof-of-concept study. 次に,概念実証研究として,方言認識データの自動補正手法を提案する。 0.74
Despite the use of synthetic labels, this method reduces dialectal associations with toxicity. 合成ラベルの使用にもかかわらず、この方法は毒性との方言の関連を減らします。 0.60
Overall, our findings show that debiasing a model trained on biased toxic language data is not as effective as simply relabeling the data to remove existing biases. 以上の結果から,有毒な言語データに基づいてトレーニングされたモデルのデバイアス化は,既存のバイアスを取り除くために単にデータを緩和するほど効果的ではないことがわかった。 0.59
Introduction 1 Current hate speech or toxic language detection1 systems exhibit problematic and discriminatory behavior that causes them to have disparate negative impact on minority populations (Yasin, 2018; Guynn, 2020; Kim et al., 2020; Dias Oliva et al., 2020). はじめに 1 現在のヘイトスピーチまたは有害言語検出1システムは、少数民族に異なるネガティブな影響をもたらす問題および差別行動を示す(Yasin, 2018; Guynn, 2020; Kim et al., 2020; Dias Oliva et al., 2020)。 0.68
Tweets simply containing a minority identity mention are commonly flagged as toxic by current systems, in contrast to those containing majority identity mentions, as illustrated in Figure 1. 少数派id参照を含むツイートは、図1に示すように、多数派id参照を含むツイートとは対照的に、現在のシステムでは一般的に有害であると警告される。 0.46
At the core of the issue are dataset biases, i.e., spurious correlations between surface patterns and annotated toxicity labels (§2), which stem from the data creation process (Sap et al., 2019). 問題の核心はデータセットバイアス、すなわち、データ生成プロセス(Sap et al., 2019)から生じる表面パターンと注釈付き毒性ラベル(*2)の間のスプリアス相関である。 0.75
Previous work has outlined two such biases for hate 1We use hate speech and toxic language interchangeably ヘイトスピーチ(ヘイトスピーチ)と有害言語(有害言語)を相互に併用する。
訳抜け防止モード: 前作では、憎しみに対する2つのバイアスを概説しています。 有毒な言語と
0.56
in this work, though their definitions do not perfectly align. この作品では 定義は 完全には整いませんが 0.59
Figure 1: Lexical items and dialect markers cause problematic behavior for toxic language detection systems such as the widely used PerspectiveAPI. 図1: 広く使われているパースペクティブAPIのような有害な言語検出システムに対して、語彙項目や方言マーカーが問題を引き起こす。 0.72
In the top two example pairs, statements with minority identity mentions and swear words used inoffensively are flagged as toxic, but majority identity mentions or offensive statements without overt swearing are missed. 上位2つの例では、少数者のアイデンティティが言及され、不当に使用される単語が有害であると宣言されるが、大多数のアイデンティティが言及されたり、過度な誓いのない攻撃的なステートメントが欠落している。 0.47
The bottom pair shows dialect-based racial bias for two inoffensive greetings, where markers of African American English (AAE) trigger the toxicity detector. 下位のペアは、アフリカ系アメリカ人英語(AAE)のマーカーが毒性検知器を誘導する2つの不当な挨拶に対する方言に基づく人種的偏見を示している。 0.61
speech datasets (both shown in Figure 1): lexical bias which associates toxicity with the presence of certain words (e.g., profanities, identity mentions; Dixon et al., 2018; Dinan et al., 2019) and dialectal bias, where toxicity is correlated with surface markers of African American English (AAE; Davidson et al., 2019; Sap et al., 2019). 音声データセット(図1に示す): 特定の単語の存在と毒性を関連付ける語彙バイアス(例、予言、アイデンティティの言及; Dixon et al., 2018; Dinan et al., 2019)と、毒性がアフリカ系アメリカ人英語(AAE; Davidson et al., 2019; Sap et al., 2019)の表面マーカーと相関する方言バイアス。 0.77
When trained on biased datasets, models acquire and exacerbate these biases (e.g., flagging text by Black authors as more toxic than by white authors; Sap et al., 2019; Zhang et al., 2018). バイアス付きデータセットでトレーニングされた場合、モデルはこれらのバイアスを取得して悪化させる(例えば、黒人作家によるテキストは、白人作家よりも有毒である、Sap et al., 2019; Zhang et al., 2018)。 0.65
Concurrently, there has been elevated interest in developing debiasing methods for standard natural language understanding (NLU) tasks, i.e., methods that aim to decrease over-reliance on spurious correlations in NLU models (Clark et al., 2019; He et al., 2019; Karimi Mahabadi et al., 2020; Bras et al., 2020). 同時に、標準自然言語理解(NLU)タスク、すなわちNLUモデルにおけるスプリアス相関の過度な信頼性の低下を目的とした方法(Clark et al., 2019; He et al., 2019; Karimi Mahabadi et al., 2020; Bras et al., 2020)に対する偏見回避手法の開発への関心が高まっている。 0.89
This raises a natural question: are これは自然な疑問を提起します 0.73
Detected toxicity score I identify as a black gay woman.I identify as a straight white man.Fucking love this. 私は黒人の同性愛女性だと認識し、真っ直ぐな白人男性だと認識している。 0.61
Adolf Hilter is a great person.Identity bias(Lexical)Swear wordbias(Lexical)Wha t’s up, bro!Wussup, n*gga!Dialect/Racial biasPers.APIPers.API Pers.API Adolf Hilter is a great person. Identity bias(Lexical)Swear wordbias(Lexical) What's up, bro!Wussup, n*gga!Dialect/Racial biasPers.APIPers.API Pers.API 0.89
英語(論文から抽出)日本語訳スコア
current debiasing approaches effective for mitigating biases specific to toxic language detection? 有毒な言語検出に特有のバイアスを緩和するために効果的な現在のデバイアスアプローチ? 0.56
In this work, we address the above question by investigating two classes of debiasing approaches to mitigate lexical and dialectal biases—one that employs additional training objectives for bias removal, and another that filters training instances likely exhibiting spurious biases (§3). 本研究は,語彙バイアスと方言バイアスを緩和するためのデバイアスアプローチの2つのクラス(バイアス除去のための追加のトレーニング目標を用いるもの,スプリアスバイアスを示す可能性のあるトレーニングインスタンスをフィルタするもの(3))を調査して,上記の問題に対処する。 0.67
Through comprehensive experiments, we show that both approaches face major challenges in mitigating biases from a model trained on a biased dataset (in our case, the dataset from Founta et al., 2018) for toxic language detection. 包括的実験を通じて,どちらのアプローチも,偏りのあるデータセット(この場合,founta et al., 2018)でトレーニングされたモデルから,有害な言語検出のためのバイアスを軽減する上で,大きな課題に直面していることが示された。 0.60
While data filtering results in reduced bias associations in the data, models trained on filtered datasets still pick up on lexical (§4) and dialectal biases (§5). データフィルタリングはデータ内のバイアス関連を減少させるが、フィルタリングされたデータセットで訓練されたモデルはまだレキシカル(4)と方言バイアス(5)を取り上げている。 0.74
We find that dialectal biases are particularly challenging to address, as has also been shown by Xia et al. Xiaらによっても示されているように、方言バイアスには特に対処が難しいことが分かっています。 0.60
(2020). “Debiased” models still disproportionately flag text in certain dialects as toxic. (2020). Debiased」モデルは、特定の方言のテキストを毒性として不均衡にフラグ付けしています。 0.66
Notably, mitigating dialectal bias through current debiasing methods does not mitigate a model’s propensity to label tweets by Black authors as more toxic than by white authors. 特に、現在のデバイアス手法による方言バイアスの緩和は、黒人の著者によるツイートを白人の著者よりも有害であるとラベル付けするモデルの傾向を緩和しない。 0.61
We additionally explore an alternative proof-ofconcept study—relabeling supposedly toxic training instances whose automatic translations into a majority dialect are deemed non-toxic by the classifier. 我々はさらに、多数派方言への自動翻訳が分類器によって非有毒とみなされる有毒な訓練例を例示する別の概念実証研究についても検討する。 0.59
To this end, we create a synthetic dataset via few-shot dialect translation system built with GPT3 (Brown et al., 2020). この目的のために,gpt3(brown et al., 2020)で構築したマイナショット方言翻訳システムを用いて合成データセットを作成する。 0.73
While only an illustrative solution, it nevertheless takes into account the dialectal context of the tweet, resulting in a model less prone to dialectal and racial biases (§6). 例示的な解決策にすぎないが、それでもツイートの方言的文脈を考慮に入れ、結果として、方言的および人種的バイアスに弱いモデルとなる(6)。 0.57
Overall, our findings indicate that debiasing a model already trained on biased toxic language data can be challenging, compared to relabeling the data to remove existing biases. 以上の結果から,すでにバイアス付き有毒な言語データに基づいてトレーニングされているモデルのデバイアス化は,既存のバイアスを取り除くためにデータを緩和するよりも難しいことが示唆された。 0.57
Our code and data are publicly available on Github.2 コードとデータはGithub.2で公開されています。 0.57
2 Biases in Toxic Language Detection We test the use of debiasing3 methods for the task of toxic language detection, which aims to flag rude, offensive, hateful, or toxic language on the internet, with the goal of moderating online communities (Roberts, 2019; Vidgen et al., 2019). 2 有害言語検出におけるバイアス 私たちは、インターネット上の無作法、攻撃的、憎悪的、有害な言語に、オンラインコミュニティをモデレートすることを目的として、有害言語検出のタスクにdebiasing3メソッドを使用します(Roberts, 2019; Vidgen et al., 2019)。 0.79
2https://github.com/ XuhuiZhou/Toxic_ 2https://github.com/ XuhuiZhou/Toxic_ 0.34
Debias 3Our definition of “bias” is specific to the social biases in toxic language detection datasets, grounded as lexical and dialectal biases; see Blodgett et al. デビアス 3 バイアス」の定義は、有害な言語検出データセットの社会的バイアスに特化しており、語彙的および方言的バイアスとして基礎を置いている。 0.52
(2020) for a detailed investigation of the term “bias”. (2020)「バイアス」という用語の詳細な調査を行う。 0.77
This task differs in several ways from the natural language understanding (NLU) tasks that debiasing methods have been successful on, such as textual entailment (e.g., SNLI, MNLI; Bowman et al., 2015; Williams et al., 2018) or reading comprehension (e.g., SQuAD; Rajpurkar et al., 2016). このタスクは、自然言語理解(NLU)タスクと、テキストの包摂(SNLI, MNLI; Bowman et al., 2015; Williams et al., 2018)や読み理解(SQuAD; Rajpurkar et al., 2016)など、Debiasingメソッドが成功したいくつかの点で異なっている。 0.73
First, compared to these NLU tasks where there is one correct label, the toxicity of language is inherently more nuanced, subjective, and contextual, which causes toxic language datasets to have lower agreement in general (Ross et al., 2017). まず、正しいラベルが1つあるこれらのNLUタスクと比較して、言語の毒性は本質的によりニュアンスが高く、主観的で、文脈的であり、有害な言語データセットは概して一致が低い(Ross et al., 2017)。 0.77
Second, the dataset biases in NLU are predominantly artifacts introduced during data creation (e.g., negations, exaggerations; Schwartz et al., 2017; Gururangan et al., 2018), whereas those in toxic language detection are grounded in the social dynamics of the world (Spears, 1998; Technau, 2018). 第二に、NLUのデータセットバイアスは、主にデータ作成中に導入されたアーティファクト(例えば、否定、誇張;Schwartz et al.、2017;Gururangan et al.、2018)であるが、有毒な言語検出のものは世界の社会的ダイナミクス(Spears、1998;Technau、2018)に根ざしている。
訳抜け防止モード: 第2に、NLUのデータセットバイアスは、主にデータ生成時に導入されたアーティファクトである(例:NLU)。 否定、誇張; Schwartz et al , 2017; Gururangan et al , 2018) 一方、有害な言語検出は世界の社会力学(Spears, 1998; Technau, 2018)に根ざしている。
0.73
For example, viewing AAE as a more toxic or less proper variety of English is a form of linguistic discrimination that upholds racial hierarchies in the United States (Rosa and Flores, 2017). 例えば、AEをより有毒または適切な英語の品種と見なすことは、米国の人種的階層を支えている言語差別の一形態である(Rosa and Flores, 2017)。 0.77
In this work, we consider two broad categories of toxic language dataset biases—lexical (§2.1) and dialectal (§2.2). 本研究では、有毒な言語データセットバイアスの2つの広いカテゴリーであるレキシカル(2.1)と方言(2.2)を検討する。 0.60
Our experiments focus on a single, widely used dataset (§2.3) from Founta et al. 実験では、fountaらによる1つの広範に使用されるデータセット (2.3) に焦点を当てた。 0.61
(2018). 2.1 Lexical Biases (TOXTRIG) (2018). 2.1 語彙バイアス(toxtrig) 0.79
Current toxic language detection systems often rely on the presence or absence of certain words (e.g., swear words, identity mentions) to make their predictions (Dixon et al., 2018; Dinan et al., 2019). 現在の有毒な言語検出システムは、しばしば特定の単語(例えば、単語、アイデンティティの言及)の存在または不在に依存して予測を行う(Dixon et al., 2018; Dinan et al., 2019)。 0.85
While most previous analyses of this bias relied on a simple list of “bad” words (Davidson et al., 2019; Dinan et al., 2019),4 we take a more nuanced view of how lexical items can convey toxicity, inspired by work in pragmatics and sociolinguistics of rudeness (Dynel, 2015; Kasper, 1990, inter alia). という単語の単純なリスト(Davidson et al., 2019; Dinan et al., 2019)に頼っていたのに対して、私たちは、現実学や無作法学の社会言語学の研究(Dynel, 2015; Kasper, 1990, inter alia)に触発されて、レキシカルアイテムがどのように毒性を伝達できるかという、より微妙な見解を取りました。 0.69
Specifically, we manually split our full list of words into three distinct categories depending on the extent to which they carry profane or hateful meanings or are simply associated with hateful contexts.5 We refer to the full set of words as TOXTRIG, for Toxicity Triggers, which is included in our released repository.6 具体的には、手作業で単語の全体リストを3つのカテゴリに分割し、それらの単語が預言的または憎悪的な意味を持つ範囲、あるいは単に嫌悪的なコンテキストに関連付けられている範囲に応じて、リリースリポジトリに含まれる Toxicity Triggers の単語のフルセットを TOXTRIG と呼びます。 0.73
4https://tinyurl.com /list-of-bad-words 5We note, however, that this categorization is in itself sub- 4https://tinyurl.com /list-of-bad-words 5しかし、この分類はそれ自体がサブである。 0.51
jective. 6https://github.com/ XuhuiZhou/Toxic_ 形容詞。 6https://github.com/ XuhuiZhou/Toxic_ 0.46
Debias/blob/master/d ata/word_based_bias_ list.csv Debias/blob/master/d ata/word_based_bias_ list.csv 0.20
英語(論文から抽出)日本語訳スコア
Non-offensive minority identity mentions (NOI) refers to descriptive mentions of minoritized demographic or social identities (e.g., gay, female, Muslim). noi(non-offensive minority identity mentions)とは、少数民族や社会的なアイデンティティ(ゲイ、女性、イスラム教徒など)の描写的な言及を指す。 0.70
While these mentions are not usually inherently offensive by themselves, they are often found in offensive statements that are hateful towards minorities (Dixon et al., 2018). これらの言及はそれ自体が本質的に攻撃的であるわけではないが、少数民族に対して憎悪的な攻撃声明にしばしば見られる(dixon et al., 2018)。 0.58
We detect these identity mentions in text using a list of 26 regular expressions. 我々は26の正規表現のリストを用いてテキスト中のこれらの同一性言及を検出する。 0.60
Possibly offensive minority identity mentions (OI) are mentions of minoritized identities that could denote profanity or hate depending on pragmatic and contextual interpretations. 潜在的に攻撃的なマイノリティの言及(OI)は、現実的な解釈や文脈的な解釈によって、暴言や憎悪を表す可能性のある少数派のアイデンティティの言及である。 0.47
This includes slurs and objectifying outdated terms to refer to minority groups, which are usually understood as attacks. これは、通常攻撃と見なされる少数派グループを指し示すために時代遅れの用語をスラリーや客観化することを含んでいる。 0.57
Additionally, this includes reclaimed slurs (queer, n*gga), which connote less offensive intent when spoken by in-group members compared to out-group members (Croom, 2013). さらに、reclaimed slurs (queer, n*gga)は、グループ外のメンバーと比較してグループ内メンバーが話す場合の不快な意図を少なくする(croom, 2013)。 0.68
Possibly offensive non-identity mentions (ONI) contains swear words and other profanities, which are usually offensive but not associated to any social groups (e.g., f*ck, sh*t). 攻撃的な非アイデンティティの言及(ONI)には、誓いの言葉やその他の敬称が含まれており、通常は攻撃的であるが、いかなる社会グループ(例えば、f*ck, sh*t)と関係がない。 0.56
Note that the pragmatic interpretation of these words is not necessarily always toxic or offensive (Dynel, 2012), as they are often used to convey closeness between the speaker and listener or emphasize the emotionality of a statement (e.g., second example in in Figure 1). これらの単語の実用的な解釈は必ずしも有害または攻撃的であるとは限らないことに注意してください(Dynel, 2012)。
訳抜け防止モード: これらの単語の実用的解釈は必ずしも有毒または不快であるとは限らない(dynel, 2012)。 話し手と聞き手の親密さを伝えるためによく使われるので あるいは、ステートメントの感情性(例えば、図1の2つ目の例)を強調します。
0.71
2.2 Dialectal Biases (AAE) Current toxic language detection systems also associate higher toxicity with dialectal markers of African American English (AAE; Sap et al., 2019; Davidson et al., 2019). 2.2 Dialectal Biases (AAE) 現在の有毒な言語検出システムは、より高い毒性をアフリカ系アメリカ人英語(AAE; Sap et al., 2019; Davidson et al., 2019)の方言マーカーと関連付ける。 0.81
Since AAE is a variety of English that is common among African Americans and often signals a cultural identity in the US (Green, 2002), this dialect-based racial bias causes speech by Black authors to be suppressed more often than non-Black authors (Sap et al., 2019), thereby exacerbating racial inequality (Rosa, 2019). AAEはアフリカ系アメリカ人の間で一般的であり、アメリカでは文化的なアイデンティティを示すことが多い(Green, 2002)ため、この方言に基づく人種的偏見は黒人以外の作家によるスピーチを非黒人作家よりも頻繁に抑圧し(Sap et al., 2019)、人種的不平等が悪化させる(Rosa, 2019)。 0.75
In our experiments, we estimate the dialect of a tweet using a topic model from Blodgett et al. 実験では,Blodgettらによる話題モデルを用いて,ツイートの方言を推定した。 0.76
(2016). This model was trained on 60M tweets, where the dialect of the tweet was inferred from the model coordinates, which yielded a probability of a tweet being in one of four dialects (AfricanAmerican English, white-aligned English, Hispanic, and other). (2016). このモデルは、ツイートの方言がモデル座標から推測された60万のツイートで訓練され、ツイートが4つの方言(アフリカ英語、ホワイトアライメント英語、ヒスパニック語など)のうちの1つにある可能性が得られた。 0.82
In this study, we only focus この研究で焦点を当てるのは 0.74
on African-American English (AAE) and whitealigned English (WAE) tweets; both definitions are based on US English, as per Blodgett et al. アフリカ・アメリカン・イングリッシュ(AAE)とホワイトアライン・イングリッシュ(WAE)のつぶやきでは、どちらの定義もアメリカ英語に基づいているとBlodgett et alは述べている。
訳抜け防止モード: on African - American English (AAE ) and whitealigned English (WAAE ) tweet; Blodgettらによると、どちらの定義も米国英語に基づいている。
0.91
(2016).7 Our experiments either use the probability of a tweet being in these dialects, or assign tweets their estimated-most-proba ble dialect. (2016.7)我々の実験では、これらの方言にあるツイートの確率を使うか、最も推定可能な方言にツイートを割り当てる。 0.66
2.3 Dataset for Toxic Language Detection We focus our analyses on a widely used hate speech dataset of English tweets (Founta et al., 2018). 2.3 有害な言語検出のためのデータセット 英語ツイートの広く使われているヘイトスピーチデータセット(founta et al., 2018)に分析に焦点を当てます。 0.74
The tweets were collected using a multiround bootstrapping procedure, and were labeled out of context8 for toxic language. ツイートはマルチラウンドブートストラップ方式で収集され、毒言語としてcontext8からラベル付けされた。 0.63
We focus on the 86k tweets that are annotated as hateful, abusive, or neither and discard those labelled as spam. 私たちは、憎悪的、虐待的、またはどちらもアノテートされた86kツイートに焦点を当て、スパムとしてラベル付けされたツイートを破棄します。 0.45
We aggregate the abusive and hateful labels into a single toxic category, yielding 32k toxic and 54k non-toxic tweets.9 私たちは虐待的で憎悪なラベルを1つの有毒なカテゴリーに集約し、32k有毒なツイートと54k無毒なツイートを生成します。
訳抜け防止モード: 虐待的かつ憎悪的なラベルを1つの有害なカテゴリに集約する。 32kの有毒なツイートと54kの非有毒なつぶやき
0.53
3 Debiasing Methods We consider two types of debiasing methods from current literature. 3 脱バイアス法 現在の文献から2種類の脱バイアス法を考察する。 0.63
The first type addresses known, pre-defined biases—such as lexical and dialectal biases for hate speech detection, via a modelbased approach involving additional training objectives (§3.1). 最初の型は、ヘイトスピーチ検出のための語彙バイアスや方言バイアスなど、既定義のバイアスを、追加の訓練目的を含むモデルベースのアプローチ(3.1)によって解決する。 0.57
In contrast, the second type is agnostic to prior knowledge about biases, and instead filters out examples that appear “too easy” and might hence contain spurious correlations (§3.2). 対照的に、第2のタイプはバイアスに関する事前の知識とは無関係であり、代わりに"あまりにも簡単"で、スプリアス相関(3.2)を含むような例を除外する。 0.62
3.1 Debiased Training for Pre-Defined 3.1 プレディフィニングのためのデバイアスドトレーニング 0.60
Toxicity Biases Toxicity Biases 0.85
We use the LEARNED-MIXIN method of Clark et al. クラークらのLEARNED-MIXIN法を用いています。 0.63
(2019), which achieved high out-ofdistribution (OOD) performance on several NLU tasks, for debiased training. (2019) は, 脱バイアス訓練のための複数のNLUタスクにおいて, OOD (High Out-of-distriion) 性能を達成した。 0.60
This method trains an ensemble containing a bias-only model which only uses pre-defined features corresponding to known biases, and a full model which uses all features. この方法は、既知のバイアスに対応する事前定義された特徴のみを使用するバイアスのみモデルと、すべての特徴を使用するフルモデルを含むアンサンブルを訓練する。 0.67
Intuitively, the ensemble encourages the full 直感的には、アンサンブルは全曲を励ます 0.32
7We avoid using disputed terms such as general American English, standard American English, or mainstream US English, which are frequently used for WAE, since we believe that no dialect should be privileged with the designation “general”, “standard”, or “mainstream” (Rosa, 2019). 7 一般アメリカ英語、標準アメリカ英語、主流アメリカ英語などの論争のある用語は使用しないが、「一般」、「標準」、または「メインストリーム」の呼称で特権を付与すべき方言は存在しないと信じている(Rosa, 2019)。 0.70
8Only the tweet text—no profile information or conversa- 8 ツイートテキスト(プロフィール情報や会話なし) 0.74
tional context—was shown to annotators. 条件付きコンテキスト - アノテーションに示されました。 0.29
9We also explored using another widely used hate speech dataset (Davidson et al., 2017), which collected tweets using a seed list of swear words and slurs. 9また、別の広く使用されているヘイトスピーチデータセット(Davidson et al., 2017)を使用して、swear wordsとslursのシードリストを使用してツイートを収集しました。 0.64
However, in line with findings by Xia et al. しかし、Xiaらによる調査結果に沿って。 0.66
(2020), debiasing led to degenerate behavior due to the data collection process, as discussed in Appendix B. (2020年)は、付録Bで論じられたように、データ収集プロセスによる振舞いの退化を引き起こした。 0.63
英語(論文から抽出)日本語訳スコア
model to rely more on features unrelated to the biases. バイアスとは無関係な機能にもっと依存するモデル。 0.72
Once trained, the bias-only model is discarded, and only the “bias-free” full model is used for inference, following Clark et al. バイアスのみのモデルが廃止され、Clark氏らに従えば、“バイアスフリー”のフルモデルのみが推論に使用される。 0.72
(2019). Bias-only model Given its effectiveness on bagof-words (BoW) features, we use an SVM classifier as the lexical-bias-only model. (2019). バイアスのみのモデル バグワード(BoW)機能の有効性を考慮し、語彙バイアスのみのモデルとしてSVM分類器を用いる。 0.77
For example, the TOXTRIG-only model counts the frequency of TOXTRIG words in each tweet. たとえば、TOXTRIGのみのモデルは、各ツイートのTOXTRIG単語の頻度をカウントします。 0.80
Our dialectal-biasonly model uses the probability of dialects (AAE, WAE, Hispanic, and other) obtained from a dialect detector (Blodgett et al., 2016) as features in a SVM classifier. 我々の方言バイアスオンリーモデルは、方言検出器(Blodgett et al., 2016)から得られる方言(AAE, WAE, Hispanicなど)の確率をSVM分類器の特徴として用いている。 0.82
Full model We fine-tune a RoBERTa-large classifier (Liu et al., 2019), a state-of-the-art classifier for the toxicity detection task. フルモデル 毒性検出タスクのための最先端の分類器であるRoBERTa-large分類器(Liu et al., 2019)を微調整する。 0.70
See Appendix A.1 for more modeling details. 詳細はAppendix A.1を参照。 0.62
Note that we only consider the LEARNEDMIXIN-ONI and LEARNED-MIXIN-TOXTRI G models for lexical debiasing, due to poor accuracies of the bias-only models for NOI and OI.10 NOI と OI.10 のバイアスのみのモデルの精度が低かったため,LEARNEDMIXIN-ONI と LEARNED-MIXIN-TOXTRI G の語彙的脱バイアスモデルのみを考えることに注意。 0.70
3.2 Data Filtering for Spurious Biases In addition to debiasing methods that handle known biases, we also explore automated approaches which filter out instances exhibiting unspecified, spurious biases. 3.2 Spurious Biasesのデータフィルタリング既知のバイアスを処理するデバイアス方法に加えて、非特定でスプリアスバイアスを示すインスタンスを除外する自動アプローチについても検討する。 0.76
Specifically, we describe below two data selection methods that have shown strong OOD performance. 具体的には,強いOOD性能を示す2つのデータ選択法について述べる。 0.75
AFLite (Bras et al., 2020) is an algorithm based on the key intuition that examples predicted correctly by the simplest methods likely exhibit spurious biases. AFLite(Bras et al., 2020)は、最も単純な方法で正しく予測された例がスプリアスバイアスを示すという重要な直感に基づくアルゴリズムである。 0.76
An ensemble of simple linear classifiers is trained and tested on different partitions of the data; test instances which are “predictable”, or classified correctly by most classifiers in the ensemble are discarded. 単純な線形分類器のアンサンブルは、データのさまざまなパーティションで訓練およびテストされ、アンサンブル内のほとんどの分類器によって「予測可能」または正しく分類されたテストインスタンスは破棄される。 0.71
The algorithm is iterative, and is repeated until a target data size is achieved. このアルゴリズムは反復的であり、目標データサイズが達成されるまで繰り返される。 0.85
Models trained on this filtered dataset achieve higher performance on OOD and adversarially constructed test sets, compared to the original model, on several text and image classification datasets. このフィルタデータセットでトレーニングされたモデルは、複数のテキストおよび画像分類データセットにおいて、OOD上で高いパフォーマンスを実現し、元のモデルと比較して逆向きに構築されたテストセットを実現する。 0.59
This indicates a reduction in spurious biases in the filtered data. これは、フィルタされたデータのスプリアスバイアスの減少を示しています。 0.64
10The NOI and OI bias-only models reach 63% and 67% accuracy, respectively, which is empirically hard for the ensemble to use. 10 NOIとOIのバイアスのみのモデルは、それぞれ63%と67%の精度に達している。
訳抜け防止モード: 10NOIとOIバイアス - モデルのみが63%と67%の精度に達します。 それぞれ、アンサンブルが使用するのが経験的に困難です。
0.63
This is likely due to low coverage in the train set of those categories (4.43% NOI and 4.25% OI). これは、これらのカテゴリ(4.43% NOIと4.25% OI)の列車セットのカバレッジが低いためであろう。 0.73
DataMaps (Swayamdipta et al., 2020) show the presence of distinct regions in a dataset— namely, easy, hard and ambiguous—defined with respect to a given model. DataMaps (Swayamdipta et al., 2020) は、特定のモデルに関して、データセット内の異なる領域(すなわち、簡単、困難、曖昧)の存在を示しています。 0.75
These regions are discovered based on the training dynamics of a model, determined by the model’s confidence in the true class, for each example, as well as the variability of this confidence, throughout training epochs. これらの領域は、モデルの真のクラスに対する信頼度によって決定されるモデルのトレーニングダイナミクスと、トレーニングのエポックを通じて、この信頼性の多様性に基づいて発見されます。 0.77
Swayamdipta et al. Swayamdiptaなど。 0.50
(2020) show that training exclusively on the hard and ambiguous regions of the data results in high OOD performance, indicating lower prevalance of spurious biases. (2020) は, データの硬く曖昧な領域にのみトレーニングを施すことにより, 高いOOD性能が得られ, 刺激バイアスの頻度が低くなることを示した。 0.66
The easy region is the largest in size for RoBERTa; however, experiments showed that training exclusively on these examples hurt OOD generalization on different NLU tasks. 容易な領域はRoBERTaにとって最大のサイズであるが、これらの例のみを対象としたトレーニングは異なるNLUタスクにおけるOOD一般化を損なうことを示した。 0.63
Following this work, we create DataMaps-Easy, DataMapsAmbiguous, and DataMaps-Hard subsets for our dataset. この作業の後、データセット用のDataMaps-Easy、DataMapsAmbiguous、DataMaps-Hardサブセットを作成します。 0.66
Following Swayamdipta et al. Swayamdiptaらに続きます。 0.66
(2020), we set the target filtered subset size to 33% of the original training set for both filtering methods, but our filtering additionally preserved the original label proportions. (2020) では, 両方のフィルタリング手法のトレーニングセットの33%に対象のフィルタサブセットのサイズを設定したが, フィルタは元のラベル比率を保存した。 0.85
We then fine-tune a RoBERTa-large classifer on these filtered subsets; see Appendix A.2 for more details. 次に、これらのフィルタされたサブセット上でRoBERTa-large Classiferを微調整します。 0.58
4 Experiments: Lexical Biases 4つの実験:語彙バイアス 0.78
We investigate the effect of debiasing approaches (§3) on removing lexical biases in hate speech detection. ヘイトスピーチ検出におけるレキシカルバイアスの除去に対するデバイアスアプローチ(*3)の効果について検討する。 0.54
First, we discuss the evaluation framework for measuring bias reduction (§4.1). まず, バイアス低減評価の枠組みについて検討する(4.1)。 0.74
We present quantitative (§4.2) and qualitative (§4.3) results on lexical bias removal for all debiasing approaches, and OOD evaluation for debiased training methods (§4.4). 定量的(4.2)および定性(4.3)の結果から,すべての脱バイアス手法の語彙バイアス除去,および脱バイアストレーニング手法のOOD評価について述べる(4.4)。 0.68
See Appendix A.3 for hyperparameters and other experimental settings. ハイパーパラメータや他の実験的な設定については、Appendix A.3を参照してください。 0.44
4.1 Evaluation Framework We report the performance of all models as overall accuracy and F1 with respect to the toxic class. 4.1 評価フレームワーク すべてのモデルのパフォーマンスを、毒性クラスに関する全体的な精度とF1として報告します。 0.78
Given that current hate speech systems tend to rely heavily on the presence of NOI, OI, and ONI mentions (§2.1) for labeling text as toxic, we use false positive rate (FPR) over each of these categories to measure the degree of bias in the model, following Hardt et al. 現在のヘイトスピーチシステムは、テキストを有毒とラベル付けるために、noi、oi、oni mentions(2.1)の存在に大きく依存する傾向があるため、これらのカテゴリにまたがる偽陽性率(fpr)を使用して、モデルにおけるバイアスの度合いを測定する。 0.67
(2016) and Xia et al. (2016)とXia et al。 0.81
(2020). Specifically, we report the FPR of a model on tweets containing NOI (FPRNOI), OI (FPROI), and ONI (FPRONI), as well the F1 corresponding to each of these classes. (2020). 具体的には、NOI(FPRNOI)、OI(FPROI)、ONI(FPRONI)を含むツイートに対するモデルのFPRと、これらの各クラスに対応するF1を報告する。 0.79
Intuitively, the lower the FPR∗, the 直感的には、FPR∗ の下方、つまり 0.64
英語(論文から抽出)日本語訳スコア
Original n Random AFLite DataMaps-Ambig. オリジナルのn Random AFLite DataMaps-Ambig。 0.76
DataMaps-Hard DataMaps-Easy DataMaps-Hard DataMaps-Easy 0.50
% 3 3 i a r t % 3 3 俺はr tだ 0.79
RNOI ↓ ROI ↓ RONI ↓ 0.0445 0.6718 0.6683 0.0345 0.6016 0.0434 0.5839 0.0126 0.0081 0.5849 0.7720 0.0772 RNOI ↓ ROI ↓ RONI ↓ 0.0445 0.6718 0.6683 0.0345 0.6016 0.0434 0.5839 0.0126 0.0081 0.5849 0.7720 0.0772 0.52
0.2641 0.2603 0.2458 0.1968 0.1853 0.3661 0.2641 0.2603 0.2458 0.1968 0.1853 0.3661 0.43
Table 1: Lexical associations between toxicity and TOXTRIG mentions in the original dataset (Founta et al., 2018) and various filtered counterparts. 表1:毒性とTOXTRIGの間の語彙的関連は、元のデータセット(Founta et al., 2018)とさまざまなフィルタリングされた対応に言及している。
訳抜け防止モード: 表1 毒性とTOXTRIGの語彙的関連性 : 原データセット(Fonta et al ., 2018) フィルターをかけたものも いろいろあります。
0.80
Random, AFLite, and DataMaps all contain only 33% of the original data after filtering. random, aflite, datamapsはすべて、フィルタリング後の元のデータの33%しか含まない。 0.76
Lower Pearson R correlation value indicates less superficial patterns in the dataset, i.e., less bias. より低いピアソンR相関値は、データセットの表層パターンの減少、すなわちバイアスの減少を示す。 0.79
Takeaway: The hard and ambiguous subsets given by DataMaps contain the lowest amount of lexical associations, indicated in boldface. 注意: DataMapsが与える困難で曖昧なサブセットは、太字で示される最小の語彙アソシエーションを含んでいる。 0.73
less the model infers lexical associations for toxicity, and hence is less biased. 毒性に関する語彙的関連を推測するモデルが少なく、従ってバイアスが少ない。 0.63
Evaluation for Filtered Datasets We additionally consider metrics based on spurious lexical associations for data filtering approaches. フィルタリングデータセットの評価 また、データフィルタリングアプローチの急激な語彙関連に基づくメトリクスについても検討する。 0.71
This measures prevalence of spurious surface patterns in the filtered datasets, which might propagate to models trained on the data. これは、データで訓練されたモデルに伝播する可能性のあるフィルタされたデータセットにおけるスプリアスサーフェスパターンの有病率を測定する。 0.64
Specifically, we report the Pearson’s correlation between the gold standard toxicity label and whether or not it contains NOI, OI, or ONI mentions. 具体的には、Pearsonのゴールド標準毒性ラベルとNOI、OI、ONIを含むか否かの相関関係を報告する。
訳抜け防止モード: 具体的には、Pearsonのゴールド標準毒性ラベル間の相関を報告します。 そしてそれがNOI、OI、またはONIを含むかどうか。
0.71
These correlations are denoted as RONI, RNOI, and ROI, respectively; lower values indicate reduction in lexical biases. これらの相関関係はそれぞれRONI, RNOI, ROIと表され, 低い値は語彙バイアスの減少を示す。 0.84
Baselines We consider comparison against two natural baselines: a vanilla RoBERTa-large classifier trained on the original dataset (Original). ベースライン 元のデータセット (Original) で訓練されたバニラ RoBERTa 大型分類器である。 0.55
We also consider a baseline trained on a random selection of the training data (Random), for comparison with data filtering methods for debiasing. また, トレーニングデータ(Random)をランダムに選択して学習したベースラインを検討し, デバイアス処理におけるデータフィルタリング手法と比較した。 0.79
Each subset is trained on 33% of the training data. 各サブセットは、トレーニングデータの33%でトレーニングされる。 0.75
4.2 Results for Lexical Bias Reduction First, we measure the reduction in lexical biases in filtered datasets, as given by AFLite and DataMaps. 4.2 レキシカルバイアス低減のための結果 まず, AFLite と DataMaps によるフィルタリングデータセットにおけるレキシカルバイアスの低減を測定した。 0.78
As shown in Table 1, subsets given by AFLite and the ambiguous and hard regions produced by DataMaps reduce the overall associations between TOXTRIG words and toxicity, compared to the original and random baselines; DataMaps-Hard has the largest reduction. 表1に示すように、AFLiteとDataMapsが生成する曖昧でハードな領域のサブセットは、元のベースラインとランダムなベースラインと比較して、TOXTRIG単語と毒性の間の全体的な関連性を減らします。 0.68
On the other hand, as expected, DataMaps-Easy shows an increased association between TOXTRIG mentions and toxicity, showing that the these examples display overt lexical biases. 一方、予想通り、DataMaps-EasyはTOXTRIGの言及と毒性の関連性を高めており、これらの例では語彙バイアスが過剰であることを示している。 0.60
Table 2 shows results for lexical bias reduction using both debiased training approaches, as well as models trained on datasets filtered using AFLite and all three regions from DataMaps. 表2は、偏りのあるトレーニングアプローチと、afliteでフィルタされたデータセットとデータマップから3つの領域でトレーニングされたモデルの両方を使用して、語彙バイアス低減の結果を示しています。 0.58
Both debiased training approaches, LMIXIN-ONI and LMIXIN-TOXTRIG, reduce FPRONI as well as FPROI by a large amount. LMIXIN-ONIとLMIXIN-TOXTRIGの両方のトレーニングアプローチは、FPRONIとFPROIを大量に削減します。 0.80
However, both approaches also hurt in-distribution test performance, indicating that ONI and other TOXTRIG features are essential for good performance.11 In contrast, the models trained on hard and ambiguous subsets from DataMaps both preserve indistribution performance, even though they are trained only a third of the original data. しかし、どちらのアプローチも分散テストのパフォーマンスを損なうため、oniや他のtoxtrig機能は優れたパフォーマンスのために必須であることを示している。対照的に、datamapsのハードおよびあいまいなサブセットでトレーニングされたモデルは、オリジナルのデータの3分の1しかトレーニングされていないにもかかわらず、どちらも分散テスト性能を保っている。
訳抜け防止モード: しかし、両方のアプローチは、分散テストのパフォーマンスにも傷つきます。 ONIや他のTOXTRIG機能は優れたパフォーマンスに不可欠です。 DataMapsのハードとあいまいなサブセットでトレーニングされたモデルは、どちらも分散パフォーマンスを維持します。 元のデータの3分の1しか訓練されていませんが
0.62
They also reduce the rate of falsely predicting NOI mentions as toxic (FPRNOI), while not showing much improvement for ONI and maintaining FPROI of the original baseline. また、NOIを毒性(FPRNOI)と誤予測する率も低下するが、ONIは改善せず、元のベースラインのFPROIを維持している。 0.71
Surprisingly, the model trained on the easy subset from DataMaps shows good bias reduction on the NOI and ONI categories, while matching the random selection baseline for OI. 驚くべきことに、DataMapsの簡単なサブセットに基づいてトレーニングされたモデルは、NOIとONIのカテゴリに対して良いバイアス低減を示し、OIのランダム選択ベースラインにマッチする。 0.63
This is despite DataMaps-Easy showing an increased association between TOXTRIG mentions and toxicity (Table 1). DataMaps-EasyはTOXTRIGの言及と毒性の関連性を高めている(Table 1)。 0.75
Notably, the F1 for all categories suffers under this model, indicating that it is less competent than the baseline. 特に、すべてのカテゴリのF1はこのモデルに苦しめられ、ベースラインよりも有能でないことを示す。 0.70
These results suggest that reduced associations in the data might not necessarily lead to debiased models trained on the same data. これらの結果は、データ内の関連付けの減少が、必ずしも同じデータで訓練された偏見モデルにつながるとは限らないことを示唆している。
訳抜け防止モード: これらの結果は, データの関連性の低下は 必ずしも同じデータで訓練された 偏りのあるモデルに 繋がるとは限らない
0.71
Overall, no single approach outperforms all others across different categories for lexical debiasing. 全体として、語彙的偏見のために、他のすべてのカテゴリよりも優れたアプローチはありません。 0.44
4.3 Qualitative Analysis A qualitative study of the Founta et al. 4.3 定性分析 Founta et alの定性的研究 0.71
(2018) test set shows the presence of many annotation errors. (2018) テストセットは、多くのアノテーションエラーの存在を示す。 0.77
We show three representative annotation errors in Table 3. 表3に代表的アノテーションエラーを3つ示す。 0.74
The first example contains an atypical example of toxicity, towards white folks, which the annotators might have been unaware of. 最初の例は、毒性の非定型的な例で、アノテーターが知らなかったかもしれない白人に対するものである。 0.70
It also contains a link which annotators had access to, but not models. アノテータがアクセスしたリンクも含んでいるが、モデルではない。 0.67
The second contains the word p*ss which the annotators may have relied for their assessment. 2番目の単語は、アノテータがアセスメントに頼った可能性のある p*ss である。 0.56
The third encourages violence/abuse towards an identity which isn’t typically the target of violence. 3つめは、通常暴力の対象ではないアイデンティティに暴力/犯罪を奨励するものだ。 0.73
Interestingly, the DataMaps-Easy predictions agree with all the gold standard annotations; perhaps such annotation errors and ambiguity are responsible for the performance discussed 興味深いことに、DataMaps-Easyの予測はすべての金の標準アノテーションと一致している。
訳抜け防止モード: 興味深いことに、datamaps - 簡単な予測は、すべてのgold標準アノテーションに一致します。 ; このようなアノテーションエラーとあいまいさは、議論されるパフォーマンスに責任がある
0.52
11When we combine the bias-only model and the full model, we obtain competitive performance (see Appendix A.4). 11 バイアスのみのモデルとフルモデルを組み合わせると、競争性能が得られます(Appendix A.4 参照)。 0.78
英語(論文から抽出)日本語訳スコア
Vanilla LMIXIN-ONI LMIXIN-TOXTRIG バニラlmixin-oni lmixin-toxtrig 0.41
i a r t n Random AFLite DataMaps-Ambig. 俺はr tだ n Random AFLite DataMaps-Ambig 0.82
DataMaps-Hard DataMaps-Easy DataMaps-Hard DataMaps-Easy 0.50
% 3 3 Test (12893) F1 ↑ 92.330.0 85.592.5 86.941.1 92.180.1 91.940.1 92.450.1 92.610.1 91.940.2 % 3 3 Test (12893) F1 ↑ 92.330.0 85.592.5 86.941.1 92.180.1 91.940.1 92.450.1 92.610.1 91.940.2 0.61
Acc.↑ 94.210.0 89.651.5 90.440.7 94.070.1 93.860.1 94.330.1 94.500.0 94.000.1 Acc.↑ 94.210.0 89.651.5 90.440.7 94.070.1 93.860.1 94.330.1 94.500.0 94.000.1 0.27
F1 ↑ 89.760.3 87.041.1 85.470.3 89.480.4 90.210.4 89.160.7 89.540.4 86.810.6 F1 ↑ 89.760.3 87.041.1 85.470.3 89.480.4 90.210.4 89.160.7 89.540.4 86.810.6 0.29
FPRNOI ↓ 10.241.3 13.991.5 11.151.7 9.330.7 11.261.1 7.391.0 6.260.9 5.920.7 FPRNOI ↓ 10.241.3 13.991.5 11.151.7 9.330.7 11.261.1 7.391.0 6.260.9 5.920.7 0.30
F1 ↑ 98.840.1 98.870.0 97.640.3 98.930.0 98.900.0 98.870.0 98.840.0 98.870.0 F1 ↑ 98.840.1 98.870.0 97.640.3 98.930.0 98.900.0 98.870.0 98.840.0 98.870.0 0.29
NOI (602) OI (553) 能(602) 大井(553) 0.53
ONI (3236) ONI(3236年) 0.70
FPROI ↓ 85.710.0 85.710.0 71.430.0 83.333.4 85.710.0 85.710.0 85.710.0 83.333.4 FPROI ↓ 85.710.0 85.710.0 71.430.0 83.333.4 85.710.0 85.710.0 85.710.0 83.333.4 0.30
F1 ↑ 97.340.1 87.874.5 90.411.8 97.400.1 97.320.1 97.540.0 97.430.0 97.170.1 F1 ↑ 97.340.1 87.874.5 90.411.8 97.400.1 97.320.1 97.540.0 97.430.0 97.170.1 0.29
FPRONI ↓ 64.720.8 43.743.1 44.551.5 67.150.6 67.973.4 64.391.4 61.951.1 60.333.8 FPRONI ↓ 64.720.8 43.743.1 44.551.5 67.150.6 67.973.4 64.391.4 61.951.1 60.333.8 0.30
Table 2: Evaluation of lexical bias removal for all debiasing methods on the Founta et al. 表2:Fonunta et al.の全脱バイアス法における語彙バイアス除去の評価 0.69
(2018) test set. (2018)テスト セット。 0.74
Results show the mean and s.d. 結果は平均およびs.dを示します。 0.59
(subscript) of accuracy and F1 across 3 runs, as well as F1 and false positive rate exclusively on test examples containing specific TOXTRIG mentions—NOI, OI and ONI, along with the number of examples in each category. 精度とF1の3つの実行のサブスクリプト、および特定のTOXTRIGの言及を含むテスト例(NOI、OI、ONI)にのみF1および偽陽性率、および各カテゴリの例の数。 0.79
The lower the FPR*, the less the model infers lexical associations for toxicity. FPR*が低いほど、モデルが毒性のレキシカル関連を推測します。 0.59
The first block shows debiased training approaches, along with the vanilla classifier, which are trained on the full dataset. 最初のブロックは、完全なデータセットでトレーニングされるバニラ分類器とともに、バイアスのあるトレーニングアプローチを示している。 0.68
The second block shows data filtering approaches, all trained on only 33% of the training data. 2つ目のブロックはデータフィルタリングアプローチを示し、トレーニングデータの33%しかトレーニングしていない。 0.73
Best performance in each block is boldfaced. 各ブロックで最高のパフォーマンスは大胆です。 0.77
Takeaway: While data filtering approaches achieve overall higher performance, debiased training approaches perform better on lexical bias reduction, in aggregate. 要点: データフィルタリングアプローチは全体的なパフォーマンスが向上する一方、偏りのあるトレーニングアプローチは、集約において、語彙バイアスの低減をより良くします。 0.57
Gold DMHard DMEasy 金 DMHard DMEasy 0.79
@user THIS? @user THIS? 0.85
LMAOOOOO...do yourself a solid and stay out of Black people’s mentions and mind your caucasia... RT @user I wish I wasn’t so annoying like I even piss myself off @user If you want to attack people, attack fundamentalists of all faiths. LMAOOOOO...自分はしっかりして、黒人の言葉を忘れずに、白人を気にするな...RT @user私は、私が@userを怒鳴らしているように、それほど迷惑ではないことを願っている。
訳抜け防止モード: LMAOOOOO ... 自分自身を堅固にし、黒人の言及から抜け出して、あなたの白人を気にしてください。 RT @user そんなに迷惑でなかったらいいのになあ。 ユーザー 人を攻撃したい場合は、すべての信仰の根本主義者を攻撃します。
0.75
Attack those who condemn 1.5bn people out of hand. 1.5bnの人々を非難する人々を手放す。 0.73
¤ A ¤ A ¤ A ¤ 阿(あ) A A(あ) 0.63
¤ A ¤ Table 3: Examples of test set tweets with their gold-standard annotations and predictions from models trained on DataMaps-Hard (DM-Hard) and DataMaps-Easy (DM-Easy) subsets. ¤ 阿(あ) 表3:DataMaps-Hard(DM-H ard)とDataMaps-Easy(DM-Eas y)サブセットで訓練されたモデルからのゴールド標準アノテーションと予測を備えたテストセットツイートの例。
訳抜け防止モード: ¤ 阿(あ) 表 3: test set tweets with their gold - standard annotations and predictions from models training on datamaps - hard (dm - hard ) datamaps - 簡単に(dm - easy )サブセット。
0.67
A denotes tweets with toxic labels, and ¤ represents non-toxic labels. a はツイートに有毒なラベルを付け、 は無毒なラベルを表す。 0.66
We anonymize the usernames to protect user privacy. ユーザーのプライバシーを保護するためにユーザー名を匿名化します。 0.56
in §4.2. These annotation ambiguities might also impair our measurement for models’ performance and debiasing effects, and expose a limitation of these datasets. 4.2。 これらのアノテーションの曖昧さは、モデルのパフォーマンスとデバイアス効果の測定を損なう可能性があり、これらのデータセットの制限を明らかにする。 0.56
4.4 Adversarial Evaluation: ONI-Adv To further study the reliance of debiased models on the ONI words, we use the test set from Dinan et al. 4.4 Adversarial Evaluation: ONI-Adv ONIの単語に対する偏りモデルへの依存をさらに研究するには、Dinan et alのテストセットを使用します。 0.80
(2019), which contains 3000 manually created sentences, 300 toxic. (2019)、3000の手動で作成された文、300毒性が含まれています。 0.60
The toxic sentences barely contain any ONI mentions, e.g., Cheese is made by french people who smell. 毒性のある文は、ONIの言及をほとんど含んでおらず、例えばチーズは、匂いを嗅ぐフランス人によって作られる。 0.61
We call this test set ONI-Adv (for adversarial) since it challenges models with a reversal in the association between toxicity and offensive non-identity words (e.g., “f*ck”, “sh*t”). このテストセットは、毒性と攻撃的非同一性(例えば "f*ck" や "sh*t" など)の関連性に反するモデルに挑戦するため、ONI-Adv (対逆性) と呼ばれる。 0.74
We report F1 for all models in Figure 2, which shows how well a model identifies toxicity in offensive tweets that do not contain overtly lexical cues of toxicity. 図2のすべてのモデルについてF1を報告し、このモデルが有害性の過剰な語彙的手がかりを含まない攻撃的ツイートの毒性をいかによく識別するかを示す。 0.62
The debiased training approaches improve over the baselines; data filtering methods do not. debiased trainingアプローチはベースラインよりも改善されるが、データフィルタリングメソッドは改善しない。 0.77
One reason for this might be that data filtering methods were trained on much less data この理由の1つは、データフィルタリング手法が、はるかに少ないデータで訓練されたことである。
訳抜け防止モード: この理由の一つは データフィルタリングの方法は、はるかに少ないデータで訓練されました
0.79
than both LMIXIN models. 両方のLMIXINモデルより。 0.86
Regardless, none of the models we test are good at predicting subtle, non-overt toxicity. いずれにせよ、我々がテストしたモデルは、微妙で非過剰な毒性を予測するのに長けていない。 0.52
5 Experiments: Dialectal and Racial 5つの実験:方言と人種 0.72
Biases We test the efficacy of the bias reduction methods from §3 for dialectal bias (§2.2) reduction. バイアス 本研究は, 方言のバイアス低減法 (2.2) の有効性を検証した。 0.62
5.1 Dialectal Biases For our dialectal bias experiments, we first infer the dialect of a tweet as described in §2.2. 5.1 方言バイアス 方言バイアス実験では、最初に2.2 に記載されたツイートの方言を推測した。 0.65
Then, analogous to the lexical bias evaluation, we quantify the dialectal debiasing using the Pearson’s correlation between estimated probabilities of AAE and toxicity (RAAE), and the false positive rates of models on AAE tweets (FPRAAE). 次に, 語彙バイアス評価と類似して, AAEの推定確率と毒性 (RAAE) との相関と, AAEのつぶやき (FPRAAE) におけるモデルの偽陽性率を用いて, 方言の偏りを定量化する。 0.83
See Appendix A.3 for hyperparameters and other experimental settings. ハイパーパラメータや他の実験的な設定については、Appendix A.3を参照してください。 0.44
Results in Table 4 show that almost all data filtering and debiasing methods reduce dialectal biases, with DataMaps-Easy as the exception (con- 表4の結果は、ほとんどすべてのデータフィルタリングとデバイアス方法が方言バイアスを減らし、DataMaps-Easyを例外として示しています。 0.67
英語(論文から抽出)日本語訳スコア
Vanilla LMIXIN-Dialect Vanilla LMIXIN-Dialect 0.71
i a r t n Random AFLite DataMaps-Ambig. 俺はr tだ n Random AFLite DataMaps-Ambig 0.82
DataMaps-Hard DataMaps-Easy AAE-relabeled DataMaps-Hard DataMaps-Easy AAE-relabeled 0.47
% 3 3 RAAE ↓ 0.4079 % 3 3 RAAE0.4079 0.70
- 0.4027 0.3577 0.2965 0.2878 0.5347 0.3453 - 0.4027 0.3577 0.2965 0.2878 0.5347 0.3453 0.64
F1 ↑ 92.330.0 92.260.1 92.180.1 91.940.1 92.450.1 92.610.1 91.940.2 91.640.3 F1 ↑ 92.330.0 92.260.1 92.180.1 91.940.1 92.450.1 92.610.1 91.940.2 91.640.3 0.29
Test FPRAAE ↓ 16.840.3 16.070.4 16.670.6 16.840.8 15.990.4 13.710.2 19.462.8 12.690.0 テスト FPRAAE ↓ 16.840.3 16.070.4 16.670.6 16.840.8 15.990.4 13.710.2 19.462.8 12.690.0 0.53
Figure 2: Challenge set evaluation for lexical biases, comparing all debiasing methods with baselines, using the ONI-Adv test set. 図2: 語彙バイアスに対するチャレンジセットの評価、すべてのデバイアスメソッドとベースラインの比較、oni-advテストセットの使用。 0.65
Takeaway: F1(↑) measures show that all models perform poorly at identifying toxic text not containing overtly lexical cues of toxicity. 考察: f1(\)の指標は、すべてのモデルが毒性の過剰な語彙的手がかりを含まない有毒なテキストを識別する能力に乏しいことを示している。 0.55
In general, debiased training approaches outperform the original model on this challenge set, while data filtering is not as effective. 一般に、デバイアスドトレーニングは、データフィルタリングがあまり効果的ではないが、この課題セットで元のモデルを上回る。 0.60
sistent with Table 1). テーブル1とssistent。 0.53
Notably, DataMaps-Hard performs the best at dialectal debiasing, both in terms of toxicity-AAE correlation (RAAE) and in terms of false flagging of toxicity (FPRAAE). 特に、DataMaps-Hardは、毒性-AAE相関(RAAE)と毒性の偽フラグング(FPRAAE)の両点において、方言の嫌悪において最善を尽くしている。 0.59
Interestingly, most models’ decrease in false flagging is small, suggesting room for improvement. 興味深いことに、ほとんどのモデルの偽フラグの減少は小さく、改善の余地があります。 0.58
5.2 Racial Biases To quantify the real-world impact of dialectbased racial bias, we measure the rates of toxicity predicted by models on a corpus of tweets for which the race of authors is available, but not annotations of toxicity. 5.2 Racial Biases 方言に基づく人種バイアスの現実世界の影響を定量化するために、著者の人種が利用可能なツイートのコーパス上でモデルによって予測される毒性の速度を測定しますが、毒性の注釈はありません。 0.70
Specifically, we consider the dataset released by Preot¸iuc-Pietro and Ungar (2018), which consists of 5.4M tweets, collected from 4,132 survey participants (3,184 White, 374 African American) with self-reported race/ethnicity and Twitter user handles.12 具体的には,4,132人の調査参加者(白人3,184人,アフリカ系アメリカ人374人)から収集した5.4Mのつぶやきからなり,人種・民族の自己報告とTwitterユーザーハンドリングを行うPreot ジウク・ピエトロ・アンド・アンガー(2018年)がリリースしたデータセットについて考察する。
訳抜け防止モード: 具体的には、preot siuc - pietro and ungar (2018) がリリースしたデータセットについて検討する。 参加者は4,132人(白人3,184人)。 374 アフリカ系アメリカ人) 自己を持つ - 人種/民族の報告 twitterのユーザーは
0.62
We quantify our models’ racial bias by measuring the difference in rates of flagging tweets by African American authors and those by white authors, following Sap et al. 私たちは、アフリカ系アメリカ人の作家と白人の作家によるツイートのフラグ付け率の差を測定することで、モデルの人種的偏見を定量化します。 0.71
(2019).13 Listed in Table 5, our results show that automatic debiasing methods do not consistently decrease the racial discrepancy in flagging toxicity. (2019).13 第5表に示すように, 自動脱バイアス法は, 有毒性フラグの人種差を一貫して減少させるものではない。 0.77
Notably, the toxicity rates on tweets by African American authors—and the diferences compared to white authors—are similar across all debias12For efficiency, we randomly select 12k tweets from the 特に、アフリカ系アメリカ人の作家によるツイートの毒性率、そして白人作家と比較しても、全てのデビアス12の効率において、私たちはランダムに12万ツイートを選択します。 0.60
dataset as the OOD test set. OODテストセットとしてのデータセット。 0.72
13Note that we assume that authors from all races have the すべての人種の著者が持っていると仮定する13の注意。 0.55
same likelihood of writing toxic language. 有毒な言語を書く可能性は同じです 0.64
Table 4: Dialectal bias evaluation for all debiasing methods (§5), as well as the relabeling approach (§6) on the Founta et al. 表4: 全てのデバイアス法(5)の弁証的バイアス評価とFounta et al上のレバリングアプローチ(6)である。 0.63
(2018) test set. (2018)テスト セット。 0.74
We report F1 and the false positive rate with respect to tweets in AAE (FPRAAE), reflecting dialectal bias (lower is less biased), showing mean and s.d. 我々は、AAE(FPRAAE)におけるツイートに対するF1と偽陽性率を報告し、方言バイアス(低バイアスは少ない)を反映し、平均およびs.dを示す。 0.74
(subscript) across 3 runs. (本文)三行にまたがる。 0.56
(Top Block) Debiased training approaches, along with the vanilla classifier, are all trained on the full dataset. (Top Block) Debiasedトレーニングアプローチは、バニラ分類器とともに、すべて完全なデータセットでトレーニングされます。 0.76
(Middle Block) Random, AFLite and DataMaps all are trained on only 33% of the training data. (ミッドルブロック)ランダム、AFLite、DataMapsはすべて、トレーニングデータのわずか33%でトレーニングされます。 0.75
Best performance for each training set size is in boldface. 各トレーニングセットサイズで最高のパフォーマンスは、boldfaceです。 0.78
Takeaway: Both debiasing approaches improve performance over baselines, with DataMaps-Hard proving the most effective at debiasing. 結論: 両方のデバイアスアプローチがベースラインよりもパフォーマンスを改善し、datamaps-hardがデバイアスにおいて最も効果的なことを証明します。 0.47
(Bottom Block) AAErelabeling results in a model which despite following a noisy process yields even larger improvements for dialectal debiasing. (ボットブロック) AAErelabelingは、騒々しいプロセスに従っているにもかかわらず、方言の嫌悪感をさらに改善するモデルをもたらす。 0.60
ing methods and baselines, except for DataMapsEasy, which shows the most racial bias in toxicity flagging. DataMapsEasyを除く、ingメソッドとベースラインは、毒性フラグングの最も人種的なバイアスを示している。 0.69
Surprisingly, DataMaps-Hard, which mitigated dialectal bias the best out of all debiasing methods, also shows high discrepancy between author races. DataMaps-Hardは、すべての偏見の方法の中で最も優れた方言バイアスを緩和し、著者の人種間の高い相違も示しています。 0.55
Confirming previous results, this suggests that debiasing these systems requires more than automatic debiasing methods. 以前の結果を確認すると、これらのシステムのデバイアスは自動デバイアス法以上のものを必要とすることが示唆される。 0.40
6 Towards Data Relabeling Based on our quantitative and qualitative analyses, we believe there still is room for improvement in debiasing hate speech detection. 6 データのラベル化 定量的・定性的な分析に基づき、ヘイトスピーチ検出の偏見を改善する余地があると考えています。 0.62
Therefore, we turn our attention to the role of label noise in datasets. したがって、データセットにおけるラベルノイズの役割に注意を向けます。 0.82
Partly inspired by our qualitative analyses of debiased models’ predictions, we design a proof-of-concept study where we automatically correct the label of tweets using a(n automatic) dialectal translation of the tweet, inspired by previous work showing that highlighting AAE tweets’ dialect led them to be labeled as less toxic (Sap et al., 2019). debiased models's predictionsの質的分析に触発されて、我々は、ツイートの(n個の自動的な)方言翻訳を使って自動的にツイートのラベルを訂正する概念実証研究をデザインした(sap et al., 2019)。
訳抜け防止モード: 偏りのあるモデルの予測に関する質的な分析から着想を得たもの。 私たちは、ツイートの弁証的翻訳を使ってツイートのラベルを自動的に修正する、概念研究の実証を設計します。 以前の研究に触発されて、AAEのツイートの方言のハイライトは、毒性の低いもの(Sap et al ., 2019)と表示された。
0.68
We conclude this study by discussing the limitations and ethical implications of the synthetic data, and cautioning against its real-world application. 本研究は,合成データの限界と倫理的意義を議論し,実世界の応用に留意することで結論づける。 0.80
英語(論文から抽出)日本語訳スコア
Original LMIXIN-Dialect オリジナル LMIXIN-Dialect 0.68
i a r t n Random AFLite DataMaps-Ambig. 俺はr tだ n Random AFLite DataMaps-Ambig 0.82
DataMaps-Hard DataMaps-Easy AAE-relabeled DataMaps-Hard DataMaps-Easy AAE-relabeled 0.47
% 3 3 W-Tox. % 3 3 W-Tox 0.81
AA-Tox. ∆ ↓ AA/W↓ 5.37 1.74 7.24 5.06 1.67 7.50 4.96 1.60 8.28 4.33 1.59 7.32 6.75 5.42 1.80 5.31 1.84 6.36 7.83 1.94 8.46 3.67 1.53 6.93 AA-Tox ∆ ↓ AA/W↓ 5.37 1.74 7.24 5.06 1.67 7.50 4.96 1.60 8.28 4.33 1.59 7.32 6.75 5.42 1.80 5.31 1.84 6.36 7.83 1.94 8.46 3.67 1.53 6.93 0.61
12.61 12.55 13.24 11.64 12.17 11.67 16.30 10.60 12.61 12.55 13.24 11.64 12.17 11.67 16.30 10.60 0.42
Table 5: Racial disparity in toxicity prediction reported on Preot¸iuc-Pietro and Ungar (2018). 表5:Preot siuc-Pietro and Ungar(2018)で報告された毒性予測の人種差。 0.61
W-Tox. indicates % of white users’ tweets being flagged as toxic, AA-Tox. W-Tox 白人ユーザーのツイートの % が有毒な AA-Tox としてフラグされています。 0.69
indicates % of African American users’ tweets being flagged as toxic, ∆ refers to the difference between AA-Tox. アフリカ系アメリカ人ユーザーのツイートの % が有毒であるとしてフラグを付けており、 はaa-tox の違いを指している。
訳抜け防止モード: アフリカ系アメリカ人のツイートの % が有毒であるとフラグされています。 AA - トックスの違いを指します。
0.65
and W-Tox., and AA/W refers to the ratio between AA-Tox. W-Tox. と AA/W は AA-Tox の比率を指す。 0.72
and W-Tox. Takeaway: Methods generally fail in debiasing on this OOD test set except the relabeling approach shows some benefit. W-Tox。 結論: メソッドは通常、relabelingアプローチを除いて、このoodテストセットのデバイアスに失敗する。 0.69
Focusing on dialectal bias, our key assumption is that an AAE tweet and its corresponding WAE version should have the same toxicity label, therefore toxic AAE tweets whose WAE versions are non-toxic are candidates for label correction.14 方言バイアスに焦点を当てて、私たちの重要な仮定は、AEのツイートとその対応するWAEのバージョンは同じ毒性のラベルを持つべきであるため、WAEのバージョンが無毒性である有毒なAAEのツイートはラベル修正の候補です14。 0.56
However, gold-standard translations of AAE to WAE would require qualified translators, and automatic AAE-to-WAE translation systems do not exist, to the best of our knowledge. しかし、AAEからWAEへのゴールドスタンダードの翻訳には資格のある翻訳者が必要であり、私たちの知る限り、AAEからWAEへの自動翻訳システムは存在しない。 0.53
Therefore, we create a proof-of-concept study—we set up a AAE to WAE “translation” system using the fewshot capabilities of the GPT-3 language model (Brown et al., 2020). そこで私たちは、GPT-3言語モデル(Brown et al., 2020)の少数ショット機能を用いて、AE to WAE「翻訳」システムを構築しました。 0.74
Under this mechanism, we prompt GPT-3 with four translation pairs (taken from Spears, 1998) and an AAE tweet from our training data, and generate its WAE “translation”. 本機構では,GPT-3に4つの翻訳ペア(1998年にSpearsから取得)と,トレーニングデータからAAEのツイートを送付し,WAEの“翻訳”を生成する。 0.72
The list of prompts, as well as further details, are provided in Appendix C. Note that we do not recommend this approach to build large scale parallel data for dialects, as discussed under ethical implications and limitations. このアプローチは、倫理的な意味合いと制限の下で議論されているように、方言の大規模並列データを構築するためのこのアプローチを推奨しないことに注意してください。
訳抜け防止モード: プロンプトのリストと詳細は付録 C に記載されています。 倫理的な影響と制限の下で議論されているように、方言のための大規模な並列データを構築する。
0.67
Next, as per our heuristic, we only relabel toxic AAE tweets whose WAE translation is predicted as non-toxic by either our vanilla classifier trained on the original Founta et al. 次に、我々のヒューリスティックな例では、WAE翻訳が元のFounta等で訓練されたバニラ分類器によって非毒性であると予測される、有毒なAAEツイートのみをレザベルで送る。 0.50
(2018) dataset, or an identical classifier trained on the WAE translated tweets. (2018)データセット、またはWAE翻訳ツイートで訓練された同一の分類器。 0.66
The resulting dataset (AAE-relabeled) is the same size as the original dataset, but with 954 (12%) out of 8260 toxic AAE tweets relabeled as 得られたデータセット(AAE-relabeled)は元のデータセットと同じサイズですが、8260の有毒なAAEツイートのうち954 (12%)が再ラベルされています。 0.68
14Note that this assumption does not hold for lexical items, because substituting lexical items (e.g., swapping a minority mention for a majority mention) would drastically change the denotational meaning of the sentence. 14 この仮定は、語彙項目を置換する(例:少数の言及を多数の言及に置き換える)と、文の意味が劇的に変わるため、語彙項目には当てはまらないことに留意する。 0.66
non-toxic (examples in Table 6). 非毒性(表6の例)。 0.75
To assess the validity of the relabeling, the first three authors manually annotated toxicity of 50 randomly selected relabeled tweets. relabelingの有効性を評価するために、最初の3人の著者は、ランダムに選択された50個のrelabeledtweetの毒性を手動で注釈付けした。 0.50
On average, authors agreed with 84% of the relabeling decisions. 著者は平均して、relabeling決定の84%に同意した。 0.67
Then, we evaluate the dialectal bias of AAErelabeled and quantify the dialect and racial prediction biases from a RoBERTa-large classifier trained on AAE-relabeled, following §5. そこで,AErelabeledの方言バイアスを評価し,AErelabeledで訓練されたRoBERTa大分類器の方言・人種予測バイアスを5次で定量化する。 0.74
As shown in the last row of Table 4, this relabeling scheme decreases dialectal bias more than any other debiasing method, specifically as measured by the FPR on AAE tweets, with one point drop in F1 score. 表4の最後の行に示すように、この緩和スキームは、他のどのデバイアス法よりも方言バイアスを減少させ、特にAAEツイートのFPRによって測定され、F1スコアが1ポイント低下する。 0.67
The F1 score on the “gold” test data (Table 4) are not fully reliable, as test data contain label biases and better performance could come from exploiting these biases. テストデータ(表4)のF1スコアは、ラベルバイアスを含み、これらのバイアスを悪用することでパフォーマンスが向上する可能性があるため、完全に信頼できない。 0.71
As shown in Table 5, the model trained on AAE-relabeled has the lowest racial disparity in toxicity flagging rates compared to all other methods. 表5に示すように、AE-relabeledで訓練されたモデルは、他のすべての方法と比較して毒性フラグング率の人種差が低い。 0.67
These results highlight that debiasing methods are much less effective at mitigating dialectal dataset biases compared to data relabeling. これらの結果は、デバイアス法は、データレバリングに比べて方言のデータセットバイアスを軽減するのにはるかに効果的であることを示している。
訳抜け防止モード: これらの結果は デバイアス法は、データリラベリングに比べて方言のデータセットバイアスを緩和するのには効果がない。
0.57
For future investigations, we recommend obtaining human-written AAE-WAE pairs (e.g., as done by Groenwold et al., 2020). 今後の調査では、人為的なAE-WAEペア(Groenwold et al., 2020)の取得を推奨する。 0.73
Additionally, to ensure less biased toxicity labeling, we recommend recruiting AAE speakers or experts for avoiding over-identification of AAE-markers as toxic (Spears, 1998; Croom, 2013). また, 有害性標識のバイアスの軽減を図るため, AAEマーカーの過剰な識別を避けるため, AAE話者や専門家の募集を推奨する(Spears, 1998; Croom, 2013)。 0.71
Alternatively, we recommend exploring more holistic representations of social biases or toxicity (e.g., Social Bias Frames; Sap et al., 2020). あるいは、より包括的な社会バイアスや毒性の表現(例えば、Social Bias Frames; Sap et al., 2020)を検討することを推奨する。 0.75
Ethical Implications & Limitations The above synthetic setting is meant to illustrate the role of labeling quality on biases in annotations. Ethical Implications & Limitations 上記の合成設定は、アノテーションのバイアスに品質をラベル付けする役割を示すことを目的としています。 0.70
We strongly caution against using this approach in real-world applications, such as building parallel datasets for dialects. 方言のための並列データセットの構築など、現実世界のアプリケーションでこのアプローチを使用することを強く警告します。 0.60
First, due to how its training data was selected, GPT-3 has likely not been exposed to many African American English varieties during training (Jo and Gebru, 2020). まず、トレーニングデータの選択方法から、GPT-3はトレーニング中に多くのアフリカ系アメリカ人の英語の品種に曝されていない可能性が高い(Jo and Gebru, 2020)。 0.67
Second, pretrained language models are known to generate toxic language at non-trivial rates (Gehman et al., 2020), which could cause differential toxicity in the translations. 第二に、事前訓練された言語モデルは、非自明な速度で有害な言語を生成することが知られている(Gehman et al., 2020)。 0.64
7 Related Work Debiasing Toxicity Detection As the popularity of hate speech and toxic language detection sys- 関連7作品 ヘイトスピーチの人気と有毒言語検出システムとしての毒性検出の偏見- 0.68
英語(論文から抽出)日本語訳スコア
AAE GPT-3 WAE Translation AAE GPT-3 WAE翻訳 0.80
RT @user I can’t stand a bad texter bruh like don’t be mad if I forget about yo ass RT @user Retweet if you fuck with this!!!! RT @user 私はあなたがこれでファックした場合、私はyo ass RT @user Retweetを忘れた場合、怒らないように悪いテキストの残酷に耐えることはできません! 0.88
RT @user That nigga needs anger management RT @user oh fucking hell take a day off man rt @user that nigga need anger management rt @user oh hell hell take a day off man (英語) 0.77
RT @user I can’t stand a bad texter bro like don’t be mad if I forget about you RT @user Retweet if you like this! RT @user これが好きならRT @user Retweetを忘れたら怒らないような悪いテキスタイルブロに耐えられない! 0.62
RT @user That guy needs anger management RT @user oh fuck take a day off man RT @userその男は怒りの管理を必要とする RT @user Oh shit take a day off man 0.87
Gold New A ¤ ゴールドニュー 阿(あ) 0.53
A ¤ A ¤ A A Table 6: Examples of AAE tweets with their GPT-3 based WAE translation, and original gold standard and new annotations based on AAE-relabeled. AはA、AはA。 表6: GPT-3ベースのWAE翻訳によるAEツイートの例、およびAAE-relabeledに基づくオリジナルのゴールド標準と新しいアノテーション。 0.67
For the first three tweets, the (biased) gold labels are changed by models predicting the new labels on their WAE translations. 最初の3つのツイートでは、WAE翻訳の新しいラベルを予測するモデルによって(偏った)ゴールドラベルが変更されます。 0.65
A indicates presence of toxicity, and ¤ represents nontoxic. a は毒性の存在を示し、 は非毒性を表す。 0.73
We anonymize the usernames to protect user privacy. ユーザーのプライバシーを保護するためにユーザー名を匿名化します。 0.56
tems has grown, several biases have been found in dataset and models, spurring various debiasing efforts to mitigate these individual biases (e.g., gender bias, racial bias; Park et al., 2018; Sap et al., 2019; Davidson et al., 2019). temsは成長し、データセットやモデルにいくつかの偏見が見られ、これらの個々の偏見を緩和するための様々な偏見(例えば、性別偏見、人種偏見、Park et al., 2018; Sap et al., 2019; Davidson et al., 2019)を引き起こしている。 0.75
Some work tackles identity-based biases, e.g., using data re-balancing (Dixon et al., 2018), or adversarial feature learning (Vaidya et al., 2019). 例えば、データ再バランス(Dixon et al., 2018)や敵対的機能学習(Vaidya et al., 2019)を使用することである。 0.63
Less work has tackled racial or dialectal bias. 人種や方言の偏見に取り組む作業は少ない。 0.62
Notably, Xia et al. 特に、Xia et al。 0.62
(2020) use adversarial training to prevent the model from associating toxicity with AAE, showing only small improvements in fairness. (2020) モデルがAAEと毒性を関連付けるのを防ぐために, 対人訓練を用い, 公正性はわずかに改善した。 0.67
Based on those results, we do not explore adversarial methods, opting instead for ensemble-based methods of predefined bias reduction. これらの結果に基づいて, 逆法を探索せず, バイアス低減のためのアンサンブルに基づく手法を選択した。 0.67
In contemporary work, Mozafari et al. 現代の作品では、Mozafari et al。 0.72
(2020) use a re-weighting mechanism, which shows some effects in debiasing racial bias. (2020) は再重み付け機構を使用し、人種的偏見を損なう効果を示す。 0.78
We leave it for future work to evaluate this method in our setting. 我々は,この手法を評価するために,今後の作業に残す。 0.72
In contrast to all previous work, our experiments also measure the effectiveness of bias-agnostic methods. 従来の研究とは対照的に, バイアス非依存手法の有効性も測定した。 0.57
Other General Debiasing Methods Several approaches for debiasing NLU tasks have been proposed lately. その他の一般的なデビアス法 NLUタスクをデビアスするいくつかのアプローチが最近提案されている。 0.52
Some approaches rely on adversarial training to remove protected attributes (e.g. いくつかのアプローチは、保護された属性を削除するために敵対的な訓練に頼っている(例)。 0.45
gender or race), from a model’s internal representations (Zhang et al., 2018; Wang et al., 2019; Xia et al., 2020). 性別または人種) モデルの内部表現から (zhang et al., 2018; wang et al., 2019; xia et al., 2020)。 0.70
Other approaches include confidence regularization (Utama et al., 2020), as well as other product of expert approaches (He et al., 2019; Karimi Mahabadi et al., 2020) similar to the debiased training approach from Clark et al. その他のアプローチとしては、信頼の正則化(Utama et al., 2020)や、Clark et al.の偏ったトレーニングアプローチに似た専門家アプローチ(He et al., 2019; Karimi Mahabadi et al., 2020)がある。 0.81
(2019), which is the only debiased training we employ due to its relatively strong performance. (2019)は、相対的に強いパフォーマンスのため、私たちが採用している唯一のデバイアスドトレーニングです。
訳抜け防止モード: (2019年) 我々が採用している唯一の偏りのある訓練です 比較的高いパフォーマンスのためです
0.72
8 Conclusion tasks. Focusing on two types of biases, lexical and dialectal, our experiments show that these methods face significant challenges in reducing the biased behavior in toxicity detectors. 8 結論 タスク。 語彙と方言の2種類のバイアスに着目し,これらの方法が毒性検出器のバイアスド挙動を減少させる上で大きな課題に直面していることを示した。 0.64
This indicates that biases in toxic language detection might be different in nature compared to spurious associations studied in typical NLU settings. これは、有毒な言語検出におけるバイアスは、典型的なNLU設定で研究されたスプリアス関連と本質的に異なる可能性があることを示している。 0.50
We studied a synthetic scheme for relabeling examples with potential dialectal biases; our results indicate that correcting noisy labels results in better bias reduction. 本研究では, 方言バイアスを伴った例のラベル変更手法を検討し, ノイズの多いラベルの修正がバイアス低減に結びつくことを示唆した。 0.58
Our findings suggest that instead of solely relying on development of automatic debiasing for existing, imperfect datasets, future work focus primarily on the quality of the underlying data for hate speech detection, such as accounting for speaker identity and dialect. 以上の結果から,既存の不完全なデータセットに対する自動脱バイアスの開発にのみ依存するのではなく,話者識別や方言などのヘイトスピーチ検出の基盤となるデータの品質に重点を置くことが示唆された。 0.73
Indeed, such efforts could act as an important step towards making systems less discriminatory, and hence safe and usable. 実際、このような取り組みは、システムの差別を減らし、安全で使用可能なものにするための重要なステップとして機能する可能性がある。
訳抜け防止モード: 実際、このような努力は重要なステップとして機能する可能性がある。 システムの差別を減らし 安全で使いやすくします
0.57
Acknowledgments We thank the anonymous reviewers and Laura Vianna for helpful comments on this work. 承認 匿名のレビュワーとlaura viannaに感謝します。 0.39
This research was supported in part by NSF grants 1813153 and 1714566. この研究はNSF 1813153 と 1714566 によって部分的に支持された。 0.69
References Su Lin Blodgett, Solon Barocas, Hal Daum´e, III, and Hanna Wallach. 参考文献 Su Lin Blodgett, Solon Barocas, Hal Daum ́e, III, Hanna Wallach。 0.85
2020. Language (technology) is power: A critical survey of “bias” in NLP. 2020. 言語(テクノロジー)は力です:NLPの「バイアス」の重要な調査。 0.78
In Proc. of ACL. Proc。 ACLの略。 0.63
Su Lin Blodgett, Lisa Green, and Brendan O’Connor. Su Lin Blodgett、Lisa Green、Brendan O’Connor。 0.65
2016. Demographic dialectal variation in social media: A case study of African-American English. 2016. ソーシャルメディアにおける図形方言のバリエーション : アフリカ系アメリカ人英語の事例研究 0.80
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
We investigate whether toxic language detection systems can be debiased using recently introduced methods for debiasing text classification in NLU 最近紹介されたnluにおけるテキスト分類のデバイアス手法を用いて,有害言語検出システムによるデバイアスの可能性を検討する。 0.48
Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. サミュエル・R・ボウマン、ガボル・アンジェリ、クリストファー・ポッツ、クリストファー・D・マニング。 0.36
2015. A large annotated corpus for learning natural language inference. 2015. 自然言語推論を学ぶための大きな注釈付きコーパス。 0.79
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
英語(論文から抽出)日本語訳スコア
Ronan Le Bras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew Peters, Ashish Sabharwal, and Yejin Choi. Ronan Le Bras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew Peters, Ashish Sabharwal, Yejin Choi 0.74
2020. Adversarial filters of dataset biases. 2020. データセットバイアスの逆フィルタ。 0.77
In Proc. of ICML. Proc。 ICMLの略。 0.62
Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A. Smith. Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, Noah A. Smith 0.75
2020. Realtoxicityprompts: Evaluating neural toxic degeneration in language models. 2020. realtoxicityprompts: 言語モデルにおける神経毒性変性の評価。 0.84
In Findings of EMNLP. Tom B. EMNLPの発見。 トム・B。 0.64
Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner Berner, Sam McCandlish, Alec Radford, Ia Sutsk, Amodrio など。 0.86
2020. Language models are few-shot learners. 2020. 言語モデルは少数の学習者です。 0.77
In Proc. of NeurIPS. Proc。 NeurIPSの略。 0.63
Christopher Clark, Mark Yatskar, and Luke Zettlemoyer. Christopher Clark、Mark Yatskar、そしてLuke Zettlemoyer。 0.78
2019. Don’t take the easy way out: Ensemble based methods for avoiding known dataset biases. 2019. 既知のデータセットバイアスを回避するための、ベースのメソッドを組み立てる。 0.68
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
Adam M Croom. アダム・m・コルーム 0.50
2013. How to do things with slurs: In Lan- 2013. slurs で物事を行う方法: Lan で。 0.78
Studies in the way of derogatory words. 否定的な言葉の方法で研究する。 0.68
guage & communication. guage & communicationの略。 0.65
Thomas Davidson, Debasmita Bhattacharya, and Ingmar Weber. Thomas Davidson、Debasmita Bhattacharya、Ingmar Weber。 0.66
2019. Racial bias in hate speech and In Abusive abusive language detection datasets. 2019. ヘイトスピーチにおける人種バイアスと虐待的虐待言語検出データセット 0.75
Language Workshop (at ACL). ACL (Language Workshop) の略。 0.77
Thomas Davidson, Dana Warmsley, Michael Macy, and Ingmar Weber. Thomas Davidson、Dana Warmsley、Michael Macy、Ingmar Weber。 0.70
2017. Automated hate speech detection and the problem of offensive language. 2017. ヘイトスピーチの自動検出と攻撃言語の問題。 0.69
In Proceedings of the International AAAI Conference on Web and Social Media. International AAAI Conference on Web and Social Media に参加して 0.71
Thiago Dias Oliva, Dennys Marcelo Antonialli, and Alessandra Gomes. Thiago Dias Oliva、Dennys Marcelo Antonialli、およびAlessandra Gomes。 0.78
2020. Fighting hate speech, silencing drag queens? 2020. ヘイトスピーチと戦う、ドラッグクイーンをシレンス? 0.70
artificial intelligence in content moderation and risks to lgbtq voices online. コンテンツモデレーションにおける人工知能とlgbtq音声オンラインへのリスク 0.69
In Sexuality & Culture. セクシュアリティ・アンド・カルチャー。 0.50
Emily Dinan, Samuel Humeau, Bharath Chintagunta, and Jason Weston. Emily Dinan、Samuel Humeau、Bharath Chintagunta、Jason Weston。 0.64
2019. Build it break it fix it for dialogue safety: Robustness from adversarial human attack. 2019. 構築 破壊 対話の安全のために修正する: 敵の人間の攻撃による堅牢性。 0.77
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
Lucas Dixon, John Li, Jeffrey Scott Sorensen, Nithum Thain, and L. Vasserman. Lucas Dixon、John Li、Jeffrey Scott Sorensen、Nithum Thain、L. Vasserman。 0.73
2018. Measuring and mitigating unintended bias in text classification. 2018. テキスト分類における意図しないバイアスの測定と緩和 0.78
In Proc. of AES. Proc。 AESの略。 0.61
Marta Dynel. 2012. マルタ・ディネル。 2012. 0.62
Swearing methodologically : the (im)politeness of expletives in anonymous commentaries on youtube. Swearing methodologically : youtube上の匿名解説における(im)politeness of expletives in anonymous commentaries。 0.85
In Journal of English Studies. Journal of English Studiesに寄稿。 0.84
Marta Dynel. 2015. マルタ・ディネル。 2015. 0.62
The landscape of impoliteness re- search. 無礼な再会の風景- 捜索だ 0.58
In Journal of Politeness Research. Journal of Politeness Researchに寄稿。 0.84
Antigoni-Maria Founta, Constantinos Djouvas, Despoina Chatzakou, Ilias Leontiadis, Jeremy Blackburn, Gianluca Stringhini, Athena Vakali, Michael Sirivianos, and Nicolas Kourtellis. Antigoni-Maria Founta, Constantinos Djouvas, Despoina Chatzakou, Ilias Leontiadis, Jeremy Blackburn, Gianluca Stringhini, Athena Vakali, Michael Sirivianos, Nicolas Kourtellis 0.79
2018. Large scale crowdsourcing and characterization of twitter abusive behavior. 2018. 大規模なクラウドソーシングとTwitter虐待行動の評価。 0.74
In Proc. of WSM. Proc。 WSMの略。 0.59
Lisa Green. 2002. リサ・グリーン。 2002. 0.81
African American English: A Lin- アフリカ系アメリカ人 英語: A Lin- 0.78
guistic Introduction. guisticの紹介。 0.71
Cambridge University Press. ケンブリッジ大学出版局。 0.68
Sophie Groenwold, Lily Ou, Aesha Parekh, Samhita and Honnavalli, Sharon Levy, Diba Mirza, Investigating AfricanWilliam Yang Wang. Sophie Groenwold, Lily Ou, Aesha Parekh, Samhita and Honnavalli, Sharon Levy, Diba Mirza, Investigating AfricanWilliam Yang Wang。 0.82
2020. American vernacular english in Transformer-Based text generation. 2020. トランスフォーマーに基づくテキスト生成におけるアメリカ英語 0.81
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R. Bowman, and Noah A. Smith. たとえば、Gururangan、Swabha Swayamdipta、Omer Levy、Roy Schwartz、Samuel R. Bowman、Noah A. Smith。 0.74
2018. Annotation artifacts in natural language inference data. 2018. 自然言語推論データにおけるアノテーションアーティファクト。 0.83
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Jessica Guynn. Jessica Guynn 0.61
2020. What civil rights groups want from facebook boycott: Stop hate speech and harassment of black users. 2020. 公民権グループがFacebookのボイコットから望むもの:黒人ユーザーのヘイトスピーチやハラスメントをやめる。 0.79
Moritz Hardt, Eric Price, and Nati Srebro. Moritz Hardt、Eric Price、Nati Srebro。 0.68
2016. In Equality of opportunity in supervised learning. 2016. 内 教師付き学習における機会の平等。 0.69
Proc. of NeurIPS. Proc NeurIPSの略。 0.64
He He, Sheng Zha, and Haohan Wang. 彼、Sheng Zha、そしてHaohan Wang。 0.68
2019. Unlearn dataset bias in natural language inference by fitting the residual. 2019. 残差の適合による自然言語推論における未学習データセットバイアス 0.79
In EMNLP Workshop on Deep Learning Approaches for Low-Resource NLP. EMNLP Workshop on Deep Learning Approaches for Low-Resource NLP 0.79
Eun Seo Jo and Timnit Gebru. Eun Seo JoとTimnit Gebru。 0.78
2020. Lessons from archives: strategies for collecting sociocultural data in machine learning. 2020. アーカイブからの教訓: 機械学習における社会文化的データ収集戦略。 0.83
In Proc. of FAT. Proc。 FATの略。 0.60
Rabeeh Karimi Mahabadi, Yonatan Belinkov, and James Henderson. Rabeeh Karimi Mahabadi、Yonatan Belinkov、James Henderson。 0.69
2020. End-to-end bias mitigation by modelling biases in corpora. 2020. コーパスのバイアスモデリングによるエンドツーエンドバイアス緩和 0.71
In Proc. of ACL. Proc。 ACLの略。 0.63
Gabriele Kasper. ガブリエル・カスペル。 0.42
1990. Linguistic politeness: current research issues. 1990. 言語的丁寧さ:現在の研究課題。 0.74
In Journal of Pragmatics. Journal of Pragmaticsに掲載。 0.84
Elsevier. Jae Yeon Kim, Carlos Ortiz, Sarah Nam, Sarah SantiIntersectional bias in Elsevier Jae Yeon Kim、Carlos Ortiz、Sarah Nam、Sarah Santi Intersectional bias in 0.64
ago, and Vivek Datta. 以前、そしてVivek Datta。 0.63
2020. hate speech and abusive language datasets. 2020年 ヘイトスピーチと 虐待的な言語データセット 0.57
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
In arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692。 0.76
Marzieh Mozafari, Reza Farahbakhsh, and No¨el Crespi. Marzieh Mozafari、Reza Farahbakhsh、No sel Crespi。 0.69
2020. Hate speech detection and racial bias mitigation in social media based on bert model. 2020. バートモデルに基づくソーシャルメディアにおけるヘイトスピーチ検出と人種的バイアス緩和 0.75
In PLOS ONE. PLOS ONEで。 0.76
Public Library of Science. Ji Ho Park, Jamin Shin, and Pascale Fung. 国立科学図書館蔵。 Ji Ho Park、Jamin Shin、Pascale Fung。 0.65
2018. Reducing gender bias in abusive language detection. 2018. 乱用言語検出におけるジェンダーバイアスの低減。 0.77
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
Daniel Preot¸iuc-Pietro and Lyle Ungar. ダニエル・プレオ・シウク=ピエトロとライル・アンガー。 0.37
2018. Userlevel race and ethnicity predictors from twitter text. 2018. ユーザーレベルの人種と民族はtwitterテキストから予測する。 0.75
In Proc. of COLING. Proc。 Colingの略。 0.46
英語(論文から抽出)日本語訳スコア
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.63
2016. SQuAD: 100,000+ questions In Proc. 2016. SQuAD:Procで100,000以上の質問。 0.73
of for machine comprehension of text. テキストの機械理解のために。 0.76
EMNLP, pages 2383–2392. EMNLP 2383–2392頁。 0.83
Tianlu Wang, Jieyu Zhao, Mark Yatskar, Kai-Wei Chang, and V. Ordonez. Tianlu Wang、Jieyu Zhao、Mark Yatskar、Kai-Wei Chang、V. Ordonez。 0.82
2019. Balanced datasets are not enough: Estimating and mitigating gender bias in deep image representations. 2019. バランスの取れたデータセットは不十分である:深部画像表現における性別バイアスを推定し緩和する。 0.73
In Proc. of ICCV. Proc。 ICCVの略。 0.61
Adina Williams, Nikita Nangia, and Samuel Bowman. アディナ・ウィリアムズ、ニキータ・ナンジア、サミュエル・ボウマン。 0.52
2018. A broad-coverage challenge corpus for sentence understanding through inference. 2018. 推論による文理解のための広範にわたるチャレンジコーパス 0.73
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R’emi Louf, Morgan Funtowicz, and Jamie Brew. Thomas Wolf、Lysandre Debut、Victor Sanh、Julien Chaumond、Clement Delangue、Anthony Moi、Pierric Cistac、Tim Rault、R’emi Louf、Morgan Funtowicz、Jamie Brew。 0.74
2019. Huggingface’s transformers: State-of-the-art natural language processing. 2019. Huggingfaceのトランスフォーマー:最先端の自然言語処理。 0.80
Mengzhou Xia, Anjalie Field, and Yulia Tsvetkov. Mengzhou Xia、Anjalie Field、Yulia Tsvetkov。 0.60
2020. Demoting racial bias in hate speech detection. 2020. ヘイトスピーチ検出における人種バイアスの軽減。 0.69
In Proc. of Social NLP. Proc。 ソーシャルNLPの略。 0.61
Danyaal Yasin. danyaal yasin氏。 0.60
2018. Black and banned: Who is free 2018. 黒と禁止:誰が無料です。 0.80
speech for? Brian Hu Zhang, Blake Lemoine, and Margaret Mitchell. スピーチ? Brian Hu Zhang、Blake Lemoine、Margaret Mitchell。 0.57
2018. Mitigating unwanted biases with adversarial learning. 2018. 逆学習による望ましくないバイアスの緩和 0.72
In Proc. of AES. Proc。 AESの略。 0.61
Association for Computing Machinery. association for computing machineryの略。 0.68
Sarah T Roberts. サラ・T・ロバーツ。 0.47
2019. Behind the screen: Content moderation in the shadows of social media. 2019. 画面の後ろには: ソーシャルメディアの影の中のコンテンツモデレーション。 0.81
Yale University Press. イェール大学出版局。 0.61
Jonathan Rosa. ジョナサン・ローザ。 0.52
2019. Looking like a language, sound- 2019. 言語のように見える、音。 0.80
ing like a race. レースみたいなもんだ 0.58
Oxford University Press. オックスフォード大学出版局。 0.75
Jonathan Rosa and Nelson Flores. ジョナサン・ローザとネルソン・フローレス 0.51
2017. Unsettling race and language: Toward a raciolinguistic perspective. 2017. 人種と言語:ラシオ言語主義的な視点に向かっている。 0.71
In Language In Society. Cambridge University Press. 社会における言語。 ケンブリッジ大学出版局。 0.74
Bj¨orn Ross, Michael Rist, Guillermo Carbonell, Benjamin Cabrera, Nils Kurowsky, and Michael Wojatzki. ビジュ・ショルン・ロス、マイケル・リスト、ギレルモ・カルボネル、ベンジャミン・カブレラ、ニルス・クロウスキー、マイケル・ウォジャツキ。 0.48
2017. Measuring the reliability of hate speech annotations: the case of the european refugee crisis. 2017. ヘイトスピーチアノテーションの信頼性を測定する:ヨーロッパ難民危機の場合。 0.72
In NLP 4 CMC Workshop. NLP 4 CMCワークショップに参加。 0.80
Maarten Sap, Dallas Card, Saadia Gabriel, Yejin Choi, and Noah A. Smith. Maarten Sap、Dallas Card、Saadia Gabriel、Yejin Choi、Noah A. Smith。 0.72
2019. The risk of racial bias in hate speech detection. 2019. ヘイトスピーチ検出における人種的バイアスのリスク。 0.74
In Proc. of ACL. Proc。 ACLの略。 0.63
Maarten Sap, Saadia Gabriel, Lianhui Qin, Dan Jurafsky, Noah A Smith, and Yejin Choi. Maarten Sap, Saadia Gabriel, Lianhui Qin, Dan Jurafsky, Noah A Smith, Yejin Choi 0.72
2020. Social bias frames: Reasoning about social and power implications of language. 2020. 社会的バイアスフレーム: 言語の社会的および権力的影響に関する推論。 0.81
In Proc. of ACL. Proc。 ACLの略。 0.63
Roy Schwartz, Maarten Sap, Ioannis Konstas, Li Zilles, Yejin Choi, and Noah A Smith. Roy Schwartz, Maarten Sap, Ioannis Konstas, Li Zilles, Yejin Choi, Noah A Smith 0.71
2017. The effect of different writing tasks on linguistic style: A case study of the roc story cloze task. 2017. 異なる記述タスクが言語スタイルに及ぼす影響:roc story clozeタスクのケーススタディ。 0.74
In Proc. of CoNLL. Proc。 CoNLLの略。 0.60
Arthur K Spears. アーサー・k・スピアーズ 0.44
1998. African-American language use: Ideology and so-called obscenity. 1998. アフリカ系アメリカ人の言語使用:イデオロギーといわゆるオブセニティ。 0.73
In AfricanAmerican English: Structure, History and Use. アフリカ系アメリカ人英語: Structure, History and Use。 0.91
Routledge New York. Routledge New York所属。 0.90
Swabha Swayamdipta, Roy Schwartz, Nicholas Lourie, Yizhong Wang, Hannaneh Hajishirzi, Noah A. Smith, and Yejin Choi. Swabha Swayamdipta、Roy Schwartz、Nicholas Lourie、Yizhong Wang、Hannaneh Hajishirzi、Noah A. Smith、Yejin Choi。 0.75
2020. Dataset cartography: Mapping and diagnosing datasets with training dynamics. 2020. dataset cartography: トレーニングダイナミクスによるデータセットのマッピングと診断。 0.84
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
Bj¨orn Technau. テクナウ (Technau)。 0.43
2018. Going beyond hate speech: The pragmatics of ethnic slur terms. 2018. ヘイトスピーチを超えて行く: 民族的な言葉の現実論。 0.72
Lodz Papers in Pragmatics, 14(1):25–43. Lodz Papers in Pragmatics, 14(1):25–43。 0.88
Prasetya Ajie Utama, Nafise Sadat Moosavi, and Iryna Gurevych. Prasetya Ajie Utama、Nafise Sadat Moosavi、Iryna Gurevych。 0.64
2020. Mind the trade-off: Debiasing NLU models without degrading the in-distribution performance. 2020. トレードオフを念頭に置いてください: 配布中のパフォーマンスを損なわずにNLUモデルをデビアリングします。 0.66
In Proc. of ACL. Proc。 ACLの略。 0.63
Ameya Vaidya, Feng Mai, and Yue Ning. Ameya Vaidya、Feng Mai、Yue Ning。 0.58
2019. Empirical analysis of multi-task learning for reducing model bias in toxic comment detection. 2019. 有毒コメント検出におけるモデルバイアス低減のためのマルチタスク学習の実証分析 0.85
In Proc. of ICWSM. Proc。 ICWSMの略。 0.59
Bertie Vidgen, Helen Margetts, and Alex Harris. Bertie Vidgen、Helen Margetts、Alex Harris。 0.69
2019. In Alan Turing 2019. アラン・チューリングで 0.61
How much online abuse is there? どの程度のオンライン虐待があるのか? 0.58
Institute. 研究所 0.66
英語(論文から抽出)日本語訳スコア
Appendix A Further Details for Models A.1 Model Debiasing The LEARNED-MIXIN ensemble allows the model to explicitly determine how much to trust the bias given the input: Appendix A further details for Models A.1 Model Debiasing The LEARNED-MIXIN アンサンブルは、入力が与えられたバイアスをどの程度信頼するかを明確に決定することができる。 0.73
ˆpi =softmax{log(pi) + g(xi) log bi} pi =softmax{log(pi) + g(xi) log bi} 0.85
where xi is the ith input text, pi and bi is the toxicity prediction produced by RoBERTa, and bias-only model respectively, and g is a parametric function, which is defined as softplus(w · hi), where w is a learned vector, hi is the last hidden layer of the model for example xi, and the softplus(x) = log(1 + exp x). ここで xi はイット入力テキストであり、pi と bi はそれぞれ RoBERTa によって生成される毒性予測であり、g は Softplus(w · hi) として定義されるパラメトリック関数であり、w は学習ベクトルであり、hi は xi や Softplus(x) = log(1 + exp x) のようなモデルの最後の隠れた層である。 0.72
To prevent the LEARNED-MIXIN ensemble from ignoring bi, Clark et al. LEARNED-MIXINアンサンブルがBiを無視しないようにするため、Clark et al。 0.59
(2019) add an entropy penalty (H) to the loss: (2019)損失にエントロピーペナルティ(H)を追加します。 0.66
R =αH(softmax{g(xi) log bi}) R =αH(softmax{g(xi) log bi}) 0.97
Where H(z) = −(cid:80) H(z) = −(cid:80) の場合 0.83
α is a hyperparameter. αはハイパーパラメータです。 0.79
j zj log zj is the entropy and j zj log zjはエントロピーであり 0.77
A.2 Data Filtering For the data filtering methods, we first filter data to 50% of the original data as in Swayamdipta et al. a.2 データフィルタリング データフィルタリング手法では、まず、swayamdiptaなどのように、元のデータの50%にデータをフィルタリングする。 0.81
(2020). Then we further downsample the dataset to 33% of the original data to control that each training set has the same toxic ratio as the original training set. (2020). さらに、データセットを元のデータの33%に減らし、各トレーニングセットが元のトレーニングセットと同じ毒性比を持っていることを制御します。 0.80
This step is to avoid confounding our results with different toxic ratio among different training sets. このステップは、異なるトレーニングセット間で異なる有毒率で結果をまとめることを避けることです。 0.68
A.3 Training Settings For all the experiments, we fine-tune RoBERTalarge (Liu et al., 2019) over the corresponding corpus with one GTX2080 Ti. A.3 トレーニング設定 すべての実験のために、1つのGTX2080 Tiで対応するコーパスの上にRoBERTalarge(Liu et al., 2019)を微調整する。 0.69
We use the default hyperparameters as provided in the HuggingFace Transformers library (Wolf et al., 2019), with two major changes: we use a learning rate of 10−5 and 8 batch size in all experiments. hugingface transformers library (wolf et al., 2019) で提供されているデフォルトのハイパーパラメータを使用し、2つの大きな変更を加えている。
訳抜け防止モード: We use the default hyperparameters as the HuggingFace Transformers library ( Wolf et al , 2019 )。 2つの大きな変化があります すべての実験で学習率は10~5と8のバッチサイズを使用します。
0.82
A.4 Prediction Combining with Bias-only A.4 バイアスのみの予測 0.73
Model To prevent the possibility that our LMIXINTOXTRIG/ONI is not well trained, thus resulting in the decrease of models’ in-distribution performance, we use the joint-prediction from the main and bias-only model to infer the in-distribution test モデル LMIXINTOXTRIG/ONI が十分に訓練されていない可能性を防ぐために,本モデルと偏差限定モデルからの合同予測を用いて分布内試験を推算する。 0.73
set and they obtain 94.15% and 94.17% accuracy, respectively. それぞれ94.15%と94.17%の精度を得る。 0.72
This is competitive performance as shown in Table 2. これは表2に示すように競争性能です。 0.84
B Alternative Dataset of Toxic Language Davidson et al. B Toxic Language Davidson et al の代替データセット。 0.82
(2017) collected data from Twitter, starting with 1,000 terms from HateBase (an online database of hate speech terms) as seeds, which the process relies on lexical biases. (2017年)はtwitterのデータを収集し、まずhatbase(ヘイトスピーチ用語のオンラインデータベース)から1000語を種にし、そのプロセスは語彙バイアスに依存している。 0.63
We find that performing data filtering methods over this dataset leads to degenerate behaviour. このデータセット上でデータフィルタリングメソッドを実行すると、振る舞いが縮退する。 0.70
Specifically, as shown in Table 7, the easy region demonstrates least spurious correlation due to its heavily skewed class distribution, which further prevent us from downsampling to control the toxic ratio. 具体的には、表7に示すように、非常に歪んだクラス分布により、最も緩やかな相関が示され、さらに毒性比を抑えるためのダウンサンプリングが防止される。 0.64
We also train LMIXIN-TOXTRIG and LMIXIN-dialect over the dataset. また、データセット上でLMIXIN-TOXTRIGとLMIXIN-dialectをトレーニングする。 0.57
Table 8 shows that FPR of the debiased model increase instead except for the OI category and Table 9’s results behave in-line with Table 4. 表8は、OIカテゴリ以外のデバイアスドモデルのFPRが増加し、表9の結果は表4でインラインに振る舞うことを示している。 0.82
C Few-shot AAE-to-WAE Translation Note that we do not recommend the following approach to build large scale parallel data for dialects, as discussed under ethical implications and limitations (§6). C C Few-shot AAE-to-WAE Translation Note: 倫理的含意と制限(6)の下で議論されたような、方言のための大規模並列データを構築するためのアプローチは推奨しない。 0.62
We use GPT-3 (Brown et al., 2020) to create a few-shot AAE-to-WAE translation system, using the following set of example translation pairs drawn from Spears (1998): GPT-3 (Brown et al., 2020) を使用して、Spears (1998) から描画された例のペアを使用して、少数の AAE-to-WAE 翻訳システムを作成します。 0.70
AAE: Get your triflin’ ass out of here. AAE: トリフリンのケツをここから出してください。 0.75
WAE: Get your trifling self out of here. WAE: 自分自身をここから出してみましょう。 0.81
AAE: I saw his ass yesterday. AAE:昨日彼のケツを見た。 0.78
WAE: I saw him yesterday. WAE:昨日彼に会いました。 0.74
AAE: His ass is gonna get fried. AAE: 彼のケツは揚げられるでしょう。 0.69
WAE: He is gonna get fried AAE: Wassup, nigga? アラブ首長国連邦:彼はアラブ首長国連邦:ワサップ、ニグガを揚げるつもりですか? 0.36
WAE: What’s up bro? WAE:どうしたの? 0.62
AAE: (cid:104)tweet(cid:1 05) WAE: AAE: (cid:104)tweet(cid:1 05)WAE 0.89
Note that Spears (1998) refers to WAE as White language varieties, and deals with English prevalent in the United States. Spears (1998) はWAEを白人の言語品種と呼び、アメリカ合衆国で広く使われている英語を扱っている。 0.76
We prepend the formatted example pairs to each AAE tweet in our training data, and generate the translation from GPT-3 using top-0.95 nucleus sampling with a temperature of 0.5. トレーニングデータ中の各AAEツイートにフォーマットされたサンプルペアをプリペイドし、0.5の温度でトップ0.95核サンプリングを用いてGPT-3から翻訳を生成する。 0.72
Prompts, formatting, and generation parameters were chosen based on manual inspection of the output. 出力のマニュアル検査に基づいて、プロンプト、フォーマッティング、生成パラメータが選択された。 0.72
英語(論文から抽出)日本語訳スコア
Original† Random AFLite DataMaps-Ambig. オリジナルはRandom AFLite DataMaps-Ambig。 0.69
DataMaps-Hard DataMaps-Easy DataMaps-Hard DataMaps-Easy 0.50
Toxic Ratio RNOI ↓ ROI ↓ RONI ↓ RAAE ↓ 0.4061 0.4011 0.4236 0.4445 0.4426 0.0928 毒性比 RNOI の ROI の RONI の RAAE の 0.4061 0.4011 0.4236 0.4445 0.4426 0.0928 0.47
0.0287 0.0288 0.0342 0.0493 0.0521 0.0135 0.0287 0.0288 0.0342 0.0493 0.0521 0.0135 0.43
0.8308 0.8312 0.7669 0.6736 0.6645 0.9972 0.8308 0.8312 0.7669 0.6736 0.6645 0.9972 0.43
0.4320 0.4312 0.4708 0.4683 0.4533 0.0771 0.4320 0.4312 0.4708 0.4683 0.4533 0.0771 0.43
0.2610 0.2621 0.2835 0.3230 0.3190 0.0396 0.2610 0.2621 0.2835 0.3230 0.3190 0.0396 0.43
Table 7: Lexical and dialectal associations between toxicity in the original dataset (Davidson et al., 2017) and various filtered counterparts. 表7: オリジナルのデータセット (davidson et al., 2017) における毒性と様々なフィルター付きデータセットとの語彙的および方言的関連。 0.71
Random, AFLite, and DataMaps all contain only 50% of the original data after filtering. Random、AFLite、DataMapsはすべてフィルタリング後の元のデータの50%しか含まない。 0.76
(We could not perform downsampling on these datasets due to their heavily skewed label distribution.) (重度に歪んだラベル分布のため、これらのデータセットのダウンサンプリングを行うことができなかった。) 0.66
Lower Pearson R correlation value indicates less superficial patterns in the dataset, thus are less biased. より低いピアソンR相関値は、データセットの表層パターンの減少を示すため、バイアスが少ない。 0.78
The easy subset gives the best results here are due to its severe inbalanced label distribution. 簡単な部分集合は、厳格な不均衡なラベル分布のため、最もよい結果を与える。 0.68
Original LMIXIN-TOXTRIG オリジナル LMIXIN-toxtrig 0.61
Test Acc.↑ 96.37 96.15 テスト 96.37 96.15 0.65
F1 ↑ 97.81 97.69 f1 97.81 97.69 0.59
F1 ↑ 96.42 96.19 F1, 96.42 96.19 0.52
NOI FPRNOI ↓ 25.00 28.57 25.00 28.57 ノイ・フレノワ 0.52
F1 ↑ 99.86 99.78 f1 - 99.86 99.78 0.51
OI FPROI ↓ 57.14 42.86 57.14 42.86 0.68
F1 ↑ 99.57 99.28 f1 - 99.57 99.28 0.51
ONI FPRONI ↓ 63.64 72.73 ONI FPRONI ^ 63.64 72.73 0.64
Table 8: Lexical bias removal evaluation for debiasing methods. 表8: 脱バイアス法における語彙バイアス除去評価 0.79
Original refers to the model trained over the full training set. オリジナルは、完全なトレーニングセットで訓練されたモデルを指します。 0.72
The test set is further categorized into tweets that contained relevant TOXTRIG words. テストセットはさらに、関連するTOXTRIGワードを含むツイートに分類される。 0.77
F1 indicates models’ performance while the false positive rate (FPR*) reflects models’ bias. F1はモデルのパフォーマンスを示し、偽陽性率(FPR*)はモデルのバイアスを反映します。 0.75
The lower the FPR* is, the less biased the model tend to be. FPR*が低ければ低いほど、モデルがバイアスされる傾向があります。 0.75
Debiasing Method Debiasing の方法 0.81
Original LMIXIN-Dialect オリジナル LMIXIN-Dialect 0.68
RAAE 0.4079 RAAE 0.4079 0.71
- Acc. ↑ 96.37 96.48 - Acc。 ↑ 96.37 96.48 0.75
Test F1 ↑ 97.81 97.88 試験 97.81 97.88 0.61
FPRAAE ↓ 24.76 22.86 FPRAAE 24.76 22.86 0.61
Table 9: Dialectal bias evaluation for all debiasing methods, on both in-distribution test set as well as outof-distribution dialect and race priming test sets. 表9: 分布内テストセットと分布外テストセットと競合プライミングテストセットの両方において、すべてのデバイアス法の方言バイアス評価。
訳抜け防止モード: 表9:全脱バイアス法における弁別バイアス評価 in - distribution test set と outof - distribution dialect と race priming test set の両方。
0.84
In addition to accuracy and F1, we report the false positive rate with respect to tweets in AAE (FPRAAE), reflecting dialectal bias (lower is less debiased). 精度とf1に加えて, aae (fpraae) におけるツイートに対する偽陽性率は, 方言バイアスを反映して報告した。
訳抜け防止モード: 精度とF1に加えて、AE(FPRAAE)のツイートに関する偽陽性率を報告しています。 方言のバイアスを反映します(より低いですより少なく debiased )。
0.74
Each method is based on a RoBERTa-large classifier. 各メソッドはRoBERTa大分類器に基づいている。 0.67
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。