論文の概要: Interpretable Multi Labeled Bengali Toxic Comments Classification using
Deep Learning
- arxiv url: http://arxiv.org/abs/2304.04087v1
- Date: Sat, 8 Apr 2023 19:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 17:47:21.684720
- Title: Interpretable Multi Labeled Bengali Toxic Comments Classification using
Deep Learning
- Title(参考訳): 深層学習を用いた多ラベルベンガル毒素コメント分類の解釈
- Authors: Tanveer Ahmed Belal, G. M. Shahariar, Md. Hasanul Kabir
- Abstract要約: 我々は16,073のインスタンスからなる手動ラベル付きデータセットを作成し,そのうち8,488がToxicである。
有毒なコメントは、ヴァルガー、ヘイト、宗教、脅威、トロル、侮辱の6つのカテゴリーのうちの1つ以上のものに対応する。
提案手法では,提案手法をLIME(Local Interpretable Model-Agnostic Explanations)フレームワークを用いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a deep learning-based pipeline for categorizing Bengali
toxic comments, in which at first a binary classification model is used to
determine whether a comment is toxic or not, and then a multi-label classifier
is employed to determine which toxicity type the comment belongs to. For this
purpose, we have prepared a manually labeled dataset consisting of 16,073
instances among which 8,488 are Toxic and any toxic comment may correspond to
one or more of the six toxic categories - vulgar, hate, religious, threat,
troll, and insult simultaneously. Long Short Term Memory (LSTM) with BERT
Embedding achieved 89.42% accuracy for the binary classification task while as
a multi-label classifier, a combination of Convolutional Neural Network and
Bi-directional Long Short Term Memory (CNN-BiLSTM) with attention mechanism
achieved 78.92% accuracy and 0.86 as weighted F1-score. To explain the
predictions and interpret the word feature importance during classification by
the proposed models, we utilized Local Interpretable Model-Agnostic
Explanations (LIME) framework. We have made our dataset public and can be
accessed at -
https://github.com/deepu099cse/Multi-Labeled-Bengali-Toxic-Comments-Classification
- Abstract(参考訳): 本稿では,ベンガルの有毒コメントを分類する深層学習に基づくパイプラインを提案する。まず,コメントが有毒かどうかを判断するために二分分類モデルを用いて,コメントが属する毒性の種類を決定するために多ラベル分類器を用いる。
この目的のために,8,488の有毒なインスタンスを含む16,073の手動ラベル付きデータセットを作成し,有毒なコメントは,悪質,憎悪,宗教的,脅威,トロール,侮辱という6つの有毒なカテゴリの1つかそれ以上に対応できる。
bert埋め込み付きlong short term memory (lstm) はバイナリ分類タスクの89.42%の精度を達成し、マルチラベル分類器として畳み込みニューラルネットワークと双方向long short term memory (cnn-bilstm) の組み合わせは78.92%の精度と0.86を重み付きf1-scoreとして達成した。
提案するモデルによる分類における単語特徴量の重要性を説明するために,局所的解釈可能なモデル非依存説明(lime)フレームワークを用いた。
私たちはデータセットを公開し、https://github.com/deepu099cse/Multi-Labeled-Bengali-Toxic-Comments-Classificationでアクセスできます。
関連論文リスト
- Determination of toxic comments and unintended model bias minimization
using Deep learning approach [0.0]
本研究の目的は、BERT(Bidirectional Representation from Transformers)と呼ばれる注意に基づくモデルを用いて、有毒なコメントを検出し、人種、性別、性別、宗教などのアイデンティティの特徴に関する意図しない偏見を減らすことである。
非バランスなデータの問題に対処するために重み付き損失を適用し、細調整されたBERTモデルと従来のロジスティック回帰モデルの性能を分類とバイアス最小化の観点から比較する。
論文 参考訳(メタデータ) (2023-11-08T16:10:28Z) - ToxiSpanSE: An Explainable Toxicity Detection in Code Review Comments [4.949881799107062]
ToxiSpanSEは、ソフトウェアエンジニアリング(SE)ドメインで有害なスパンを検出する最初のツールである。
我々のモデルは、有害なクラストークンに対する0.88ドルのF1ドル、0.87の精度、および0.93のリコールで最高のスコアを得た。
論文 参考訳(メタデータ) (2023-07-07T04:55:11Z) - Interval Type-2 Fuzzy Neural Networks for Multi-Label Classification [14.20513951604573]
間隔型2ファジィ論理に基づくマルチラベル分類モデルを提案する。
提案モデルでは、ディープニューラルネットワークを用いて、インスタンスのタイプ1ファジィメンバシップを予測する。
また,データセット内のバイナリラベルと,モデルが生成する間隔2型ファジィメンバシップの類似度を測定するための損失関数を提案する。
論文 参考訳(メタデータ) (2023-02-21T04:00:44Z) - Weakly-supervised segmentation using inherently-explainable
classification models and their application to brain tumour classification [0.46873264197900916]
本稿では,これら2つの問題に1つとして対処するために,本質的に説明可能な3つの分類法を提案する。
モデルは2つの異なるデータセットを用いたマルチクラス脳腫瘍分類のタスクに採用された。
得られた腫瘍のみの画像のサブセットの精度は、最先端のグリオーマ腫瘍グレーディングバイナリ分類器を98.7%の精度で上回った。
論文 参考訳(メタデータ) (2022-06-10T14:44:05Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - SCRIB: Set-classifier with Class-specific Risk Bounds for Blackbox
Models [48.374678491735665]
クラス固有RIsk境界(SCRIB)を用いたSet-classifierを導入し,この問題に対処する。
SCRIBは、クラス固有の予測リスクを理論的保証で制御するセット分類器を構築する。
脳波(EEG)データによる睡眠ステージング,X線COVID画像分類,心電図(ECG)データに基づく心房細動検出など,いくつかの医学的応用についてSCRIBを検証した。
論文 参考訳(メタデータ) (2021-03-05T21:06:12Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - Poison Attacks against Text Datasets with Conditional Adversarially
Regularized Autoencoder [78.01180944665089]
本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。
我々はNLPモデルに対する「バックドア中毒」攻撃を提示する。
論文 参考訳(メタデータ) (2020-10-06T13:03:49Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - Utilizing Deep Learning to Identify Drug Use on Twitter Data [0.0]
サポートベクトルマシン(SVM)、XGBoost、畳み込みニューラルネットワーク(CNN)に基づく分類器を含む複数の手法の分類能力を比較した。
精度は76.35%と82.31%で、AUCは0.90と0.91である。
合成されたセットはスコアを増やし、分類能力を改善し、この方法論の価値を証明した。
論文 参考訳(メタデータ) (2020-03-08T07:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。