論文の概要: Reading Between the Demographic Lines: Resolving Sources of Bias in
Toxicity Classifiers
- arxiv url: http://arxiv.org/abs/2006.16402v1
- Date: Mon, 29 Jun 2020 21:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:56:55.674214
- Title: Reading Between the Demographic Lines: Resolving Sources of Bias in
Toxicity Classifiers
- Title(参考訳): 人口動態線間の読解:毒性分類器におけるバイアスの解法
- Authors: Elizabeth Reichert, Helen Qiu, Jasmine Bayrooti
- Abstract要約: パースペクティブAPIはおそらく業界で最も広く使われている毒性分類器である。
Googleのモデルは、一般的に標的とするグループのアイデンティティを参照する単語を含むコメントに、より高い毒性スコアを不公平に割り当てる傾向がある。
我々は,強い分類性能を維持しつつ,意図しないバイアスを低減する目的で,いくつかの毒性分類器を構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The censorship of toxic comments is often left to the judgment of imperfect
models. Perspective API, a creation of Google technology incubator Jigsaw, is
perhaps the most widely used toxicity classifier in industry; the model is
employed by several online communities including The New York Times to identify
and filter out toxic comments with the goal of preserving online safety.
Unfortunately, Google's model tends to unfairly assign higher toxicity scores
to comments containing words referring to the identities of commonly targeted
groups (e.g., "woman,'' "gay,'' etc.) because these identities are frequently
referenced in a disrespectful manner in the training data. As a result,
comments generated by marginalized groups referencing their identities are
often mistakenly censored. It is important to be cognizant of this unintended
bias and strive to mitigate its effects. To address this issue, we have
constructed several toxicity classifiers with the intention of reducing
unintended bias while maintaining strong classification performance.
- Abstract(参考訳): 有毒なコメントの検閲は、しばしば不完全なモデルの判断に委ねられる。
Perspective APIはGoogleの技術インキュベータJigsawの作成であり、おそらく業界で最も広く使われている毒性分類器である。
残念なことに、Googleのモデルは、トレーニングデータでしばしば不敬な方法で参照されるため、一般的にターゲットとするグループのアイデンティティ(例えば、"woman"や"gay"など)を参照する単語を含むコメントに対して、より高い毒性スコアを不公平に割り当てる傾向にある。
結果として、そのアイデンティティを参照する辺縁グループによって生成されたコメントはしばしば誤って検閲される。
この意図しない偏見を認識し、その影響を緩和しようとすることが重要である。
この問題に対処するため,強い分類性能を維持しつつ,意図しないバイアスを低減する目的で,いくつかの毒性分類器を構築した。
関連論文リスト
- Classification of social media Toxic comments using Machine learning
models [0.0]
この要約は、ソーシャルメディアプラットフォームにおける有害なコメントの問題を概説している。
この行動は反社会的行動と呼ばれ、オンライン討論、コメント、戦いの間に起こる。
明示的な言語を含むコメントは、有毒、重篤な有毒、わいせつ、脅迫、侮辱、同一性嫌悪など、様々なカテゴリに分類される。
ユーザーを不快な言葉から守るために、企業はコメントを掲示し、ユーザーをブロックし始めた。
論文 参考訳(メタデータ) (2023-04-14T05:40:11Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - SS-BERT: Mitigating Identity Terms Bias in Toxic Comment Classification
by Utilising the Notion of "Subjectivity" and "Identity Terms" [6.2384249607204]
有害コメント分類におけるそのようなバイアスに対処する新しい手法を提案する。
同一性項を特徴とするグループに関するコメントが作成されると、そのコメントが有害である可能性は、コメントの主観性レベルと関連している、という仮説を立てる。
論文 参考訳(メタデータ) (2021-09-06T18:40:06Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Designing Toxic Content Classification for a Diversity of Perspectives [15.466547856660803]
我々は17,280人の参加者を対象に,有毒なコンテンツを構成するものに対するユーザの期待が,人口動態,信念,個人的経験によってどのように異なるかを調査した。
歴史的に嫌がらせのリスクがあるグループは、Reddit、Twitter、あるいは4chanから無作為なコメントを有害であると警告する傾向にある。
JigsawのパースペクティブAPIのような、現在の一大毒性分類アルゴリズムは、パーソナライズされたモデルチューニングによって、平均86%の精度で改善できることを示す。
論文 参考訳(メタデータ) (2021-06-04T16:45:15Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Reducing Unintended Identity Bias in Russian Hate Speech Detection [0.21485350418225244]
本稿では、ヘイトスピーチをロシア語で分類する取り組みについて述べる。
本研究では,言語モデルを用いた学習データの生成など,意図しないバイアスを減らすためのシンプルな手法を提案する。
論文 参考訳(メタデータ) (2020-10-22T12:54:14Z) - Poisoned classifiers are not only backdoored, they are fundamentally
broken [84.67778403778442]
一般的に研究されている、分類モデルに対するバックドア中毒攻撃の下で、攻撃者はトレーニングデータのサブセットに小さなトリガーを追加する。
毒を盛った分類器は、引き金を持つ敵のみに弱いと推定されることが多い。
本稿では,このバックドア型分類器の考え方が誤りであることを実証的に示す。
論文 参考訳(メタデータ) (2020-10-18T19:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。