論文の概要: Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation
- arxiv url: http://arxiv.org/abs/2012.09686v1
- Date: Thu, 17 Dec 2020 15:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 15:45:13.043540
- Title: Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation
- Title(参考訳): ベンガル語におけるヘイトスピーチ検出:データセットとそのベースライン評価
- Authors: Nauros Romim, Mosahed Ahmed, Hriteshwar Talukder, Md Saiful Islam
- Abstract要約: 本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
- 参考スコア(独自算出の注目度): 0.8793721044482612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media sites such as YouTube and Facebook have become an integral part
of everyone's life and in the last few years, hate speech in the social media
comment section has increased rapidly. Detection of hate speech on social media
websites faces a variety of challenges including small imbalanced data sets,
the findings of an appropriate model and also the choice of feature analysis
method. further more, this problem is more severe for the Bengali speaking
community due to the lack of gold standard labelled datasets. This paper
presents a new dataset of 30,000 user comments tagged by crowd sourcing and
varified by experts. All the comments are collected from YouTube and Facebook
comment section and classified into seven categories: sports, entertainment,
religion, politics, crime, celebrity and TikTok & meme. A total of 50
annotators annotated each comment three times and the majority vote was taken
as the final annotation. Nevertheless, we have conducted base line experiments
and several deep learning models along with extensive pre-trained Bengali word
embedding such as Word2Vec, FastText and BengFastText on this dataset to
facilitate future research opportunities. The experiment illustrated that
although all deep learning models performed well, SVM achieved the best result
with 87.5% accuracy. Our core contribution is to make this benchmark dataset
available and accessible to facilitate further research in the field of in the
field of Bengali hate speech detection.
- Abstract(参考訳): YouTubeやFacebookといったソーシャルメディアサイトは、あらゆる人の生活に欠かせない存在となり、ここ数年、ソーシャルメディアのコメント欄でヘイトスピーチが急速に増えている。
ソーシャルメディアwebサイトにおけるヘイトスピーチの検出は、小さな不均衡データセット、適切なモデルの発見、特徴分析方法の選択など、さまざまな課題に直面している。
さらに、この問題は、金の標準ラベル付きデータセットがないため、ベンガル語話者コミュニティにとってより厳しいものである。
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、スポーツ、エンターテイメント、宗教、政治、犯罪、有名人、TikTok & Memeの7つのカテゴリーに分類される。
合計50の注釈が各コメントに3回アノテートされ、過半数の投票が最終注釈とされた。
それでも我々は,Word2VecやFastText,BengFastTextといったベンガル語を組み込んだベースライン実験や深層学習モデルをこのデータセット上で実施して,今後の研究機会の確保に努めてきた。
実験の結果、すべてのディープラーニングモデルはうまく動作したが、SVMは87.5%の精度で最高の結果を得た。
私たちの中心となる貢献は、ベンチマークデータセットを利用可能にして、ベンガルヘイトスピーチ検出の分野におけるさらなる研究を容易にすることです。
関連論文リスト
- Hate Speech Detection and Classification in Amharic Text with Deep Learning [4.834669033093363]
我々は、テキストをヘイトスピーチの4つのカテゴリに分類し、検出できるアムハラヘイトスピーチデータとSBi-LSTMディープラーニングモデルを開発した。
われわれは5k Amharicのソーシャルメディア投稿とコメントデータを4つのカテゴリに分類した。
このモデルは94.8F1スコアのパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-07T15:46:45Z) - The Evolution of Language in Social Media Comments [37.69303106863453]
本研究では,34年間のユーザコメントの言語的特徴について検討し,その複雑さと時間的変化に着目した。
8つのプラットフォームとトピックから約3億の英文コメントのデータセットを利用する。
本研究は, テキスト長のほぼ普遍的な減少, 語彙の豊かさの低下, 反復性の低下を特徴とするソーシャルメディアプラットフォームとトピック間の複雑性パターンの整合性を明らかにした。
論文 参考訳(メタデータ) (2024-06-17T12:03:30Z) - Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - WordBias: An Interactive Visual Tool for Discovering Intersectional
Biases Encoded in Word Embeddings [39.87681037622605]
本稿では,単語埋め込みに符号化された交叉群に対するバイアスを探索するインタラクティブビジュアルツールであるWordBiasを紹介する。
事前訓練された静的単語の埋め込みが与えられた場合、WordBiasは、人種、年齢などに基づいて、各単語の関連性を計算する。
論文 参考訳(メタデータ) (2021-03-05T11:04:35Z) - Bangla Text Dataset and Exploratory Analysis for Online Harassment
Detection [0.0]
この記事でアクセス可能になったデータは、有名人、政府高官、そしてFacebook上のアスリートによる公開投稿の人々のコメントから収集され、マークされている。
データセットは、コメントがいじめの表現であるか否かを区別するマシンの開発を目的としてコンパイルされる。
論文 参考訳(メタデータ) (2021-02-04T08:35:18Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。