論文の概要: SS-BERT: Mitigating Identity Terms Bias in Toxic Comment Classification
by Utilising the Notion of "Subjectivity" and "Identity Terms"
- arxiv url: http://arxiv.org/abs/2109.02691v1
- Date: Mon, 6 Sep 2021 18:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:50:45.989795
- Title: SS-BERT: Mitigating Identity Terms Bias in Toxic Comment Classification
by Utilising the Notion of "Subjectivity" and "Identity Terms"
- Title(参考訳): SS-BERT:「主観性」と「同一性」の表記を用いた有害コメント分類におけるアイデンティティ用語のバイアスの軽減
- Authors: Zhixue Zhao, Ziqi Zhang, Frank Hopfgartner
- Abstract要約: 有害コメント分類におけるそのようなバイアスに対処する新しい手法を提案する。
同一性項を特徴とするグループに関するコメントが作成されると、そのコメントが有害である可能性は、コメントの主観性レベルと関連している、という仮説を立てる。
- 参考スコア(独自算出の注目度): 6.2384249607204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Toxic comment classification models are often found biased toward identity
terms which are terms characterizing a specific group of people such as
"Muslim" and "black". Such bias is commonly reflected in false-positive
predictions, i.e. non-toxic comments with identity terms. In this work, we
propose a novel approach to tackle such bias in toxic comment classification,
leveraging the notion of subjectivity level of a comment and the presence of
identity terms. We hypothesize that when a comment is made about a group of
people that is characterized by an identity term, the likelihood of that
comment being toxic is associated with the subjectivity level of the comment,
i.e. the extent to which the comment conveys personal feelings and opinions.
Building upon the BERT model, we propose a new structure that is able to
leverage these features, and thoroughly evaluate our model on 4 datasets of
varying sizes and representing different social media platforms. The results
show that our model can consistently outperform BERT and a SOTA model devised
to address identity term bias in a different way, with a maximum improvement in
F1 of 2.43% and 1.91% respectively.
- Abstract(参考訳): 有毒なコメント分類モデルは、しばしば「ムスリム」や「黒人」のような特定の集団を特徴づける用語であるアイデンティティ用語に偏っている。
このようなバイアスは、偽陽性の予測、すなわち、一般的に反映される。
アイデンティティ用語による非有毒なコメント。
本研究では,コメントの主観性レベルの概念と同一項の存在を活かして,有毒なコメント分類におけるそのようなバイアスに対処する新しいアプローチを提案する。
同一性用語を特徴とするグループについてコメントが作成されると、そのコメントが有毒である可能性は、コメントの主観性レベル、すなわち、そのコメントに関連付けられると仮定する。
コメントが個人的な感情や意見を伝える範囲。
BERTモデルに基づいて,これらの特徴を活用可能な新しい構造を提案し,異なるサイズの4つのデータセットと異なるソーシャルメディアプラットフォームを網羅的に評価する。
その結果,本モデルでは,識別項バイアスに対処するために考案されたBERTモデルとSOTAモデルに対して,それぞれ2.43%,1.91%の最大改善を達成できた。
関連論文リスト
- Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Modeling subjectivity (by Mimicking Annotator Annotation) in toxic
comment identification across diverse communities [3.0284081180864675]
本研究は, 定量的解析を用いて, 注釈の相違点から直感的な相違点を同定することを目的とする。
また、トレーニングデータのサイズによって、毒性に関する様々な視点を模倣するモデルの能力についても評価する。
主観性は全アノテータ群で明らかであり,多数決投票の欠点を実証している。
論文 参考訳(メタデータ) (2023-11-01T00:17:11Z) - Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-08T21:03:18Z) - The Tail Wagging the Dog: Dataset Construction Biases of Social Bias
Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。
これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文 参考訳(メタデータ) (2022-10-18T17:58:39Z) - COFFEE: Counterfactual Fairness for Personalized Text Generation in
Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。
説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-14T02:29:10Z) - Exploring Hate Speech Detection with HateXplain and BERT [2.673732496490253]
ヘイトスピーチは、軽蔑的なコメントでコミュニティを狙うために多くの形態を採り、社会進歩の一歩を遡る。
HateXplainは、音声分類カテゴリとターゲットコミュニティとともに、合理的な形で注釈付きスパンを使用する、最近発表された最初のデータセットである。
このタスクを合理性とクラス予測という形で実行するようにBERTをチューニングし、正確性、説明可能性、バイアスにまたがるさまざまなメトリクスのパフォーマンスを比較します。
論文 参考訳(メタデータ) (2022-08-09T01:32:44Z) - Is Your Toxicity My Toxicity? Exploring the Impact of Rater Identity on
Toxicity Annotation [1.1699472346137738]
我々は、ラッカーの自己記述されたアイデンティティが、オンラインコメントにおける毒性の注釈付け方法にどのように影響するかを研究する。
その結果、レーダのアイデンティティは、レーダがアイデンティティ関連アノテーションに対して毒性を注釈する方法において、統計的に重要な要素であることが判明した。
さまざまなレーダプールからアノテーションに関するモデルをトレーニングし、これらのモデルのスコアを複数のテストセットのコメントで比較しました。
論文 参考訳(メタデータ) (2022-05-01T16:08:48Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Reading Between the Demographic Lines: Resolving Sources of Bias in
Toxicity Classifiers [0.0]
パースペクティブAPIはおそらく業界で最も広く使われている毒性分類器である。
Googleのモデルは、一般的に標的とするグループのアイデンティティを参照する単語を含むコメントに、より高い毒性スコアを不公平に割り当てる傾向がある。
我々は,強い分類性能を維持しつつ,意図しないバイアスを低減する目的で,いくつかの毒性分類器を構築した。
論文 参考訳(メタデータ) (2020-06-29T21:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。