論文の概要: Bangla Text Dataset and Exploratory Analysis for Online Harassment
Detection
- arxiv url: http://arxiv.org/abs/2102.02478v1
- Date: Thu, 4 Feb 2021 08:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 21:48:13.817935
- Title: Bangla Text Dataset and Exploratory Analysis for Online Harassment
Detection
- Title(参考訳): オンラインハラスメント検出のためのバングラテキストデータセットと探索分析
- Authors: Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor
Ryen, Arman Hossain, Faisal Bin Ashraf
- Abstract要約: この記事でアクセス可能になったデータは、有名人、政府高官、そしてFacebook上のアスリートによる公開投稿の人々のコメントから収集され、マークされている。
データセットは、コメントがいじめの表現であるか否かを区別するマシンの開発を目的としてコンパイルされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being the seventh most spoken language in the world, the use of the Bangla
language online has increased in recent times. Hence, it has become very
important to analyze Bangla text data to maintain a safe and harassment-free
online place. The data that has been made accessible in this article has been
gathered and marked from the comments of people in public posts by celebrities,
government officials, athletes on Facebook. The total amount of collected
comments is 44001. The dataset is compiled with the aim of developing the
ability of machines to differentiate whether a comment is a bully expression or
not with the help of Natural Language Processing and to what extent it is
improper if it is an inappropriate comment. The comments are labeled with
different categories of harassment. Exploratory analysis from different
perspectives is also included in this paper to have a detailed overview. Due to
the scarcity of data collection of categorized Bengali language comments, this
dataset can have a significant role for research in detecting bully words,
identifying inappropriate comments, detecting different categories of Bengali
bullies, etc. The dataset is publicly available at
https://data.mendeley.com/datasets/9xjx8twk8p.
- Abstract(参考訳): 世界で7番目に話されている言語であるため、オンラインバングラ言語の使用は近年増加しています。
したがって、バングラのテキストデータを分析し、安全で嫌がらせのないオンライン環境を維持することが非常に重要である。
この記事でアクセス可能にされたデータは、著名人、政府職員、facebook上のアスリートによる投稿中の人々のコメントから収集され、マークされている。
集められたコメントの合計量は44001です。
このデータセットは、コメントがいじめ表現であるか否かを自然言語処理の助けを借りて区別し、不適切なコメントである場合にどの程度不適切であるかをマシンが判断する能力を開発するためにコンパイルされる。
コメントはハラスメントの異なるカテゴリでラベル付けされています。
本論文では,異なる視点からの探索的解析についても詳細に述べる。
分類されたベンガル語コメントのデータ収集が不足しているため、このデータセットは、いじめ語の検出、不適切なコメントの特定、ベンガル語の様々な分類の検出など、研究において重要な役割を果たす可能性がある。
データセットはhttps://data.mendeley.com/datasets/9xjx8twk8pで公開されている。
関連論文リスト
- Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - BanglaSarc: A Dataset for Sarcasm Detection [0.3914676152740142]
Sarcasmは、今日のソーシャルメディアプラットフォームで広く採用されている、ネガティブな動機に基づく肯定的な発言や発言である。
過去数年間、英語におけるサルカズム検出は大幅に改善されてきたが、バングラのサルカズム検出に関する状況は変わっていない。
本稿では,Bangla Sarcを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:28:21Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Sentiment analysis in Bengali via transfer learning using multi-lingual
BERT [0.9883261192383611]
本稿では,ベンガルで手動でタグ付けされた2クラスと3クラスのSAデータセットを提示する。
また、関連する拡張を伴う多言語BERTモデルが、転送学習のアプローチによって訓練可能であることも実証した。
この深層学習モデルは,現在最先端の68%と比較して,2階級の感情分類において71%の精度を達成している。
論文 参考訳(メタデータ) (2020-12-03T10:21:11Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Creating a Multimodal Dataset of Images and Text to Study Abusive
Language [2.2688530041645856]
CREENDERは、画像と虐待的なコメントのマルチモーダルデータセットを作成するために、学校で使用されているアノテーションツールである。
コーパスは、イタリアのコメントとともに、画像の主題がコメントをトリガーする役割を担っているかどうかを調べるために、異なる視点から分析されてきた。
画像中の人物の存在は、攻撃的なコメントを得る確率を高めるが、ユーザーは異なる方法で同じ画像を判断する。
論文 参考訳(メタデータ) (2020-05-05T14:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。