論文の概要: Determination of toxic comments and unintended model bias minimization
using Deep learning approach
- arxiv url: http://arxiv.org/abs/2311.04789v1
- Date: Wed, 8 Nov 2023 16:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:09:38.013373
- Title: Determination of toxic comments and unintended model bias minimization
using Deep learning approach
- Title(参考訳): 深層学習アプローチによる有害コメントと意図しないモデルバイアス最小化の決定
- Authors: Md Azim Khan
- Abstract要約: 本研究の目的は、BERT(Bidirectional Representation from Transformers)と呼ばれる注意に基づくモデルを用いて、有毒なコメントを検出し、人種、性別、性別、宗教などのアイデンティティの特徴に関する意図しない偏見を減らすことである。
非バランスなデータの問題に対処するために重み付き損失を適用し、細調整されたBERTモデルと従来のロジスティック回帰モデルの性能を分類とバイアス最小化の観点から比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online conversations can be toxic and subjected to threats, abuse, or
harassment. To identify toxic text comments, several deep learning and machine
learning models have been proposed throughout the years. However, recent
studies demonstrate that because of the imbalances in the training data, some
models are more likely to show unintended biases including gender bias and
identity bias. In this research, our aim is to detect toxic comment and reduce
the unintended bias concerning identity features such as race, gender, sex,
religion by fine-tuning an attention based model called BERT(Bidirectional
Encoder Representation from Transformers). We apply weighted loss to address
the issue of unbalanced data and compare the performance of a fine-tuned BERT
model with a traditional Logistic Regression model in terms of classification
and bias minimization. The Logistic Regression model with the TFIDF vectorizer
achieve 57.1% accuracy, and fine-tuned BERT model's accuracy is 89%. Code is
available at
https://github.com/zim10/Determine_Toxic_comment_and_identity_bias.git
- Abstract(参考訳): オンライン会話は有害であり、脅迫、虐待、ハラスメントの対象となることがある。
有毒なテキストコメントを特定するために、多くのディープラーニングと機械学習モデルが長年にわたって提案されてきた。
しかし、最近の研究では、トレーニングデータの不均衡のため、性別バイアスやアイデンティティバイアスを含む意図しないバイアスを示す傾向にあるモデルもある。
本研究では, bert(bidirectional encoder representation from transformers)と呼ばれる注意に基づくモデルを用いて, 有毒なコメントの検出と, 人種, 性別, 性, 宗教などのアイデンティティ特徴に対する意図しないバイアスの低減を目的とする。
非バランスなデータの問題に対処するために重み付き損失を適用し、細調整されたBERTモデルと従来のロジスティック回帰モデルの性能を分類とバイアス最小化の観点から比較する。
TFIDFベクタライザを用いたロジスティック回帰モデルは57.1%の精度で、微細調整されたBERTモデルの精度は89%である。
コードはhttps://github.com/zim10/ determine_toxic_comment_and_identity_bias.gitで入手できる。
関連論文リスト
- Crowdsourcing with Difficulty: A Bayesian Rating Model for Heterogeneous Items [0.716879432974126]
応用統計学と機械学習では、訓練に使用される「金の標準」はしばしば偏りがあり、ほとんど常にうるさい。
DawidとSkeneの人気の高いクラウドソーシングモデルは、レーダ(コーダ、アノテータ)の感度と特異性を調整するが、トレーニングのために収集されたレーティングデータの分布特性を捉えない。
本稿では,難易度,差別性,推測可能性に項目レベルの効果を加えることで,コンセンサスカテゴリを推測できる汎用計測エラーモデルを提案する。
論文 参考訳(メタデータ) (2024-05-29T20:59:28Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Detecting and Mitigating Algorithmic Bias in Binary Classification using
Causal Modeling [0.0]
予測モデルの性別バイアスは0.05レベルで統計的に有意であることを示す。
本研究は,性別バイアス軽減のための因果モデルの有効性を示す。
我々の新しいアプローチは直感的で使いやすく、R の "lavaan" のような既存の統計ソフトウェアツールを使って実装することができる。
論文 参考訳(メタデータ) (2023-10-19T02:21:04Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Investigating Bias In Automatic Toxic Comment Detection: An Empirical
Study [1.5609988622100528]
オンラインプラットフォームの増加に伴い、これらのプラットフォーム上でのユーザーエンゲージメントは、コメントやリアクションを通じて急増している。
このような文章によるコメントの大部分は、聴衆に対して虐待的で無礼で侮辱的です。
機械学習システムがプラットフォームに現れるコメントをチェックするために、トレーニングデータに存在するバイアスが分類器に渡され、クラス、宗教、性別のセットに対する差別につながる。
論文 参考訳(メタデータ) (2021-08-14T08:24:13Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。