論文の概要: BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts
- arxiv url: http://arxiv.org/abs/2206.00372v1
- Date: Wed, 1 Jun 2022 10:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 21:23:28.167608
- Title: BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts
- Title(参考訳): bd-shs: オンラインバングラヘイトスピーチをさまざまな社会的文脈で検出するためのベンチマークデータセット
- Authors: Nauros Romim, Mosahed Ahmed, Md. Saiful Islam, Arnab Sen Sharma,
Hriteshwar Talukder, Mohammad Ruhul Amin
- Abstract要約: 本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
- 参考スコア(独自算出の注目度): 1.5483942282713241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media platforms and online streaming services have spawned a new breed
of Hate Speech (HS). Due to the massive amount of user-generated content on
these sites, modern machine learning techniques are found to be feasible and
cost-effective to tackle this problem. However, linguistically diverse datasets
covering different social contexts in which offensive language is typically
used are required to train generalizable models. In this paper, we identify the
shortcomings of existing Bangla HS datasets and introduce a large manually
labeled dataset BD-SHS that includes HS in different social contexts. The
labeling criteria were prepared following a hierarchical annotation process,
which is the first of its kind in Bangla HS to the best of our knowledge. The
dataset includes more than 50,200 offensive comments crawled from online social
networking sites and is at least 60% larger than any existing Bangla HS
datasets. We present the benchmark result of our dataset by training different
NLP models resulting in the best one achieving an F1-score of 91.0%. In our
experiments, we found that a word embedding trained exclusively using 1.47
million comments from social media and streaming sites consistently resulted in
better modeling of HS detection in comparison to other pre-trained embeddings.
Our dataset and all accompanying codes is publicly available at
github.com/naurosromim/hate-speech-dataset-for-Bengali-social-media
- Abstract(参考訳): ソーシャルメディアプラットフォームとオンラインストリーミングサービスは、新しいタイプのHate Speech(HS)を生み出した。
これらのサイトの大量のユーザー生成コンテンツにより、現代の機械学習技術はこの問題に対処するために実現可能で費用対効果が高いことが判明した。
しかし、攻撃的言語が一般的に使用される異なる社会的文脈をカバーする言語学的に多様なデータセットは、一般化可能なモデルを訓練するために必要である。
本稿では、既存のBangla HSデータセットの欠点を特定し、異なる社会的文脈におけるHSを含む大規模なラベル付きデータセットBD-SHSを導入する。
ラベリング基準は階層的アノテーションプロセスに従って作成され、バングラhsにおいて我々の知識の最良のものに対する最初の種類のアノテーションである。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200以上の攻撃的なコメントが含まれており、既存のBangla HSデータセットよりも60%以上大きい。
我々は,異なるNLPモデルをトレーニングし,F1スコアの91.0%を達成したデータセットのベンチマーク結果を示す。
実験の結果,ソーシャルメディアやストリーミングサイトからのコメント144万件のみを用いてトレーニングした単語の埋め込みが,トレーニング済みの他の埋め込みと比較して常にHS検出のモデリングを改善することがわかった。
私たちのデータセットと付随するすべてのコードはgithub.com/naurosromim/hate-speech-dataset-for-bengali-social-mediaで公開されている。
関連論文リスト
- Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased
Speech in Real-World Online Services [5.03606775899383]
KoMultiText"は、韓国の有名なSNSプラットフォームから収集された、包括的で大規模なデータセットである。
本手法は,多種多様な分類課題にまたがる人間レベルの精度を,様々な指標で測定する。
私たちの研究は、現実のヘイトスピーチとバイアス軽減のためのソリューションを提供し、オンラインコミュニティの健康改善に直接貢献します。
論文 参考訳(メタデータ) (2023-10-06T15:19:39Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - BERT-based Ensemble Approaches for Hate Speech Detection [1.8734449181723825]
本稿では,複数のディープモデルを用いたソーシャルメディアにおけるヘイトスピーチの分類に焦点を当てた。
ソフト投票,最大値,ハード投票,積み重ねなど,いくつかのアンサンブル手法を用いて評価を行った。
実験の結果、特にアンサンブルモデルでは、スタックリングによってDavidsonデータセットでは97%、DHOデータセットでは77%のスコアが得られた。
論文 参考訳(メタデータ) (2022-09-14T09:08:24Z) - HS-BAN: A Benchmark Dataset of Social Media Comments for Hate Speech
Detection in Bangla [2.055204980188575]
本稿では,5万以上のラベル付きコメントからなる2進級ヘイトスピーチデータセットであるHS-BANを提案する。
本稿では,ヘイトスピーチ検出のためのベンチマークシステムを開発するために,従来の言語機能とニューラルネットワークに基づく手法について検討する。
我々のベンチマークでは、FastTextの非公式な単語埋め込みの上にBi-LSTMモデルがあり、86.78%のF1スコアを達成した。
論文 参考訳(メタデータ) (2021-12-03T13:35:18Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - hBert + BiasCorp -- Fighting Racism on the Web [58.768804813646334]
これはfox news、breitbartnews、youtubeの3つの特定のソースから139,090のコメントとニュースを含むデータセットです。
本研究では、hBERT を新しい Hopfield Layer を用いて、予め訓練された BERT モデルの特定の層を修正する。
開発者がwebアプリケーションでトレーニングされたモデルを利用できるようにするため、javascriptライブラリとchrome拡張アプリケーションもリリースしています。
論文 参考訳(メタデータ) (2021-04-06T02:17:20Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。