論文の概要: HS-BAN: A Benchmark Dataset of Social Media Comments for Hate Speech
Detection in Bangla
- arxiv url: http://arxiv.org/abs/2112.01902v1
- Date: Fri, 3 Dec 2021 13:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 20:03:28.344380
- Title: HS-BAN: A Benchmark Dataset of Social Media Comments for Hate Speech
Detection in Bangla
- Title(参考訳): HS-BAN:バングラにおけるヘイトスピーチ検出のためのソーシャルメディアコメントのベンチマークデータセット
- Authors: Nauros Romim, Mosahed Ahmed, Md Saiful Islam, Arnab Sen Sharma,
Hriteshwar Talukder, Mohammad Ruhul Amin
- Abstract要約: 本稿では,5万以上のラベル付きコメントからなる2進級ヘイトスピーチデータセットであるHS-BANを提案する。
本稿では,ヘイトスピーチ検出のためのベンチマークシステムを開発するために,従来の言語機能とニューラルネットワークに基づく手法について検討する。
我々のベンチマークでは、FastTextの非公式な単語埋め込みの上にBi-LSTMモデルがあり、86.78%のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 2.055204980188575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present HS-BAN, a binary class hate speech (HS) dataset in
Bangla language consisting of more than 50,000 labeled comments, including
40.17% hate and rest are non hate speech. While preparing the dataset a strict
and detailed annotation guideline was followed to reduce human annotation bias.
The HS dataset was also preprocessed linguistically to extract different types
of slang currently people write using symbols, acronyms, or alternative
spellings. These slang words were further categorized into traditional and
non-traditional slang lists and included in the results of this paper. We
explored traditional linguistic features and neural network-based methods to
develop a benchmark system for hate speech detection for the Bangla language.
Our experimental results show that existing word embedding models trained with
informal texts perform better than those trained with formal text. Our
benchmark shows that a Bi-LSTM model on top of the FastText informal word
embedding achieved 86.78% F1-score. We will make the dataset available for
public use.
- Abstract(参考訳): 本稿では,40.17%のヘイトスピーチを含む5万以上のラベル付きコメントからなる2進級ヘイトスピーチ(HS)データセットであるHS-BANを提案する。
データセットを準備している間、厳密で詳細なアノテーションガイドラインが続き、人間のアノテーションバイアスが軽減された。
HSデータセットは言語的に前処理され、現在人々がシンボル、頭字語、代替の綴りを使って書く様々な種類のスラングを抽出した。
これらのスラング語はさらに伝統的なスラングリストと非伝統的なスラングリストに分類され、本論文の結果に含まれる。
バングラ語におけるヘイトスピーチ検出のためのベンチマークシステムを開発するために,従来の言語特徴とニューラルネットワークに基づく手法を検討した。
実験の結果, 既存の単語埋め込みモデルでは, 形式的テキストで学習したモデルよりも性能が良いことがわかった。
我々のベンチマークでは、FastTextの非公式単語埋め込みの上にBi-LSTMモデルが86.78%のF1スコアを達成した。
データセットをパブリック使用用に公開します。
関連論文リスト
- BanTH: A Multi-label Hate Speech Detection Dataset for Transliterated Bangla [0.0]
我々は,37.3kサンプルからなるバングラヘイト音声データセットであるBanTHを紹介する。
サンプルはYouTubeコメントからソースされ、各インスタンスに1つ以上のターゲットグループをラベル付けする。
実験により、さらに事前訓練されたエンコーダが、BanTHデータセット上で最先端のパフォーマンスを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-17T07:15:15Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Spread Love Not Hate: Undermining the Importance of Hateful Pre-training
for Hate Speech Detection [0.7874708385247353]
ヘイトフルプレトレーニングが低リソースヘイトスピーチ分類タスクに及ぼす影響について検討した。
我々は、40Mのツイートデータセットのヘイトフル、非ヘイトフル、混合サブセットに基づいて事前訓練された、ツイートベースのBERTモデルのさまざまなバリエーションを評価する。
対象領域から非有害テキストを事前学習することで、類似あるいはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-09T13:53:06Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。