論文の概要: Investigating Bias In Automatic Toxic Comment Detection: An Empirical
Study
- arxiv url: http://arxiv.org/abs/2108.06487v1
- Date: Sat, 14 Aug 2021 08:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 09:20:05.869995
- Title: Investigating Bias In Automatic Toxic Comment Detection: An Empirical
Study
- Title(参考訳): 自動毒素コメント検出におけるバイアスの調査--実証的研究
- Authors: Ayush Kumar, Pratik Kumar
- Abstract要約: オンラインプラットフォームの増加に伴い、これらのプラットフォーム上でのユーザーエンゲージメントは、コメントやリアクションを通じて急増している。
このような文章によるコメントの大部分は、聴衆に対して虐待的で無礼で侮辱的です。
機械学習システムがプラットフォームに現れるコメントをチェックするために、トレーニングデータに存在するバイアスが分類器に渡され、クラス、宗教、性別のセットに対する差別につながる。
- 参考スコア(独自算出の注目度): 1.5609988622100528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With surge in online platforms, there has been an upsurge in the user
engagement on these platforms via comments and reactions. A large portion of
such textual comments are abusive, rude and offensive to the audience. With
machine learning systems in-place to check such comments coming onto platform,
biases present in the training data gets passed onto the classifier leading to
discrimination against a set of classes, religion and gender. In this work, we
evaluate different classifiers and feature to estimate the bias in these
classifiers along with their performance on downstream task of toxicity
classification. Results show that improvement in performance of automatic toxic
comment detection models is positively correlated to mitigating biases in these
models. In our work, LSTM with attention mechanism proved to be a better
modelling strategy than a CNN model. Further analysis shows that fasttext
embeddings is marginally preferable than glove embeddings on training models
for toxicity comment detection. Deeper analysis reveals the findings that such
automatic models are particularly biased to specific identity groups even
though the model has a high AUC score. Finally, in effort to mitigate bias in
toxicity detection models, a multi-task setup trained with auxiliary task of
toxicity sub-types proved to be useful leading to upto 0.26% (6% relative) gain
in AUC scores.
- Abstract(参考訳): オンラインプラットフォームの増加に伴い、コメントやリアクションを通じて、これらのプラットフォームでのユーザエンゲージメントが急増している。
このような文章によるコメントの大部分は、聴衆に対して虐待的で無礼で侮辱的です。
機械学習システムがプラットフォームに現れるコメントをチェックするために、トレーニングデータに存在するバイアスが分類器に渡され、クラス、宗教、性別のセットに対する差別につながる。
本研究では,これらの分類器のバイアスを推定するために異なる分類器と特徴を評価し,毒性分類の下流タスクにおける性能を評価する。
その結果, 自動有毒なコメント検出モデルの性能改善は, バイアス軽減と正の相関を示した。
我々の研究で、注意機構を持つLSTMはCNNモデルよりも優れたモデリング戦略であることが判明した。
さらなる分析により、fasttext埋め込みは、有毒なコメント検出のためのトレーニングモデルへの手袋埋め込みよりもわずかに好ましいことが示されている。
より深い分析により、これらの自動モデルはAUCスコアが高いにもかかわらず、特に特定のアイデンティティグループに偏っていることが明らかになった。
最後に、毒性検出モデルのバイアスを軽減するために、毒性サブタイプの補助的なタスクで訓練されたマルチタスク設定が有用であることが判明し、AUCスコアの0.26%(6%)まで上昇した。
関連論文リスト
- Determination of toxic comments and unintended model bias minimization
using Deep learning approach [0.0]
本研究の目的は、BERT(Bidirectional Representation from Transformers)と呼ばれる注意に基づくモデルを用いて、有毒なコメントを検出し、人種、性別、性別、宗教などのアイデンティティの特徴に関する意図しない偏見を減らすことである。
非バランスなデータの問題に対処するために重み付き損失を適用し、細調整されたBERTモデルと従来のロジスティック回帰モデルの性能を分類とバイアス最小化の観点から比較する。
論文 参考訳(メタデータ) (2023-11-08T16:10:28Z) - Towards Poisoning Fair Representations [26.47681999979761]
本研究は、公正表現学習手法を攻撃した最初のデータ中毒フレームワークを提案する。
トレーニングデータに慎重に毒を盛ったサンプルを注入することにより、できるだけ多くの人口統計情報を含む不公平な表現を出力するモデルを誘導する。
ベンチマークフェアネスデータセットと最先端の公正表現学習モデルの実験は、我々の攻撃の優位性を実証している。
論文 参考訳(メタデータ) (2023-09-28T14:51:20Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Debiasing Skin Lesion Datasets and Models? Not So Fast [17.668005682385175]
データリスク学習のバイアスから学んだモデルは、同じデータから。
モデルが現実世界の状況では見つからない急激な相関関係を学習すると、医療上の決定などの重要なタスクへの展開は破滅的なものになる。
将来有望な研究を示唆する興味深い結果にもかかわらず、現在の脱バイアス法は、スキン・レジオンモデルのバイアス問題を解決する準備ができていないことが判明した。
論文 参考訳(メタデータ) (2020-04-23T21:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。