論文の概要: Bangla Text Dataset and Exploratory Analysis for Online Harassment
Detection
- arxiv url: http://arxiv.org/abs/2102.02478v1
- Date: Thu, 4 Feb 2021 08:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 21:48:13.817935
- Title: Bangla Text Dataset and Exploratory Analysis for Online Harassment
Detection
- Title(参考訳): オンラインハラスメント検出のためのバングラテキストデータセットと探索分析
- Authors: Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor
Ryen, Arman Hossain, Faisal Bin Ashraf
- Abstract要約: この記事でアクセス可能になったデータは、有名人、政府高官、そしてFacebook上のアスリートによる公開投稿の人々のコメントから収集され、マークされている。
データセットは、コメントがいじめの表現であるか否かを区別するマシンの開発を目的としてコンパイルされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being the seventh most spoken language in the world, the use of the Bangla
language online has increased in recent times. Hence, it has become very
important to analyze Bangla text data to maintain a safe and harassment-free
online place. The data that has been made accessible in this article has been
gathered and marked from the comments of people in public posts by celebrities,
government officials, athletes on Facebook. The total amount of collected
comments is 44001. The dataset is compiled with the aim of developing the
ability of machines to differentiate whether a comment is a bully expression or
not with the help of Natural Language Processing and to what extent it is
improper if it is an inappropriate comment. The comments are labeled with
different categories of harassment. Exploratory analysis from different
perspectives is also included in this paper to have a detailed overview. Due to
the scarcity of data collection of categorized Bengali language comments, this
dataset can have a significant role for research in detecting bully words,
identifying inappropriate comments, detecting different categories of Bengali
bullies, etc. The dataset is publicly available at
https://data.mendeley.com/datasets/9xjx8twk8p.
- Abstract(参考訳): 世界で7番目に話されている言語であるため、オンラインバングラ言語の使用は近年増加しています。
したがって、バングラのテキストデータを分析し、安全で嫌がらせのないオンライン環境を維持することが非常に重要である。
この記事でアクセス可能にされたデータは、著名人、政府職員、facebook上のアスリートによる投稿中の人々のコメントから収集され、マークされている。
集められたコメントの合計量は44001です。
このデータセットは、コメントがいじめ表現であるか否かを自然言語処理の助けを借りて区別し、不適切なコメントである場合にどの程度不適切であるかをマシンが判断する能力を開発するためにコンパイルされる。
コメントはハラスメントの異なるカテゴリでラベル付けされています。
本論文では,異なる視点からの探索的解析についても詳細に述べる。
分類されたベンガル語コメントのデータ収集が不足しているため、このデータセットは、いじめ語の検出、不適切なコメントの特定、ベンガル語の様々な分類の検出など、研究において重要な役割を果たす可能性がある。
データセットはhttps://data.mendeley.com/datasets/9xjx8twk8pで公開されている。
関連論文リスト
- The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Textual Toxicity in Social Media: Understanding the Bangla Toxic
Language Expressed in Facebook Comment [0.6798775532273751]
バングラデシュや西ベンガルのソーシャルメディア文化において、ベンガルのコミュニティがサイバーいじめ、ヘイトスピーチ、道徳的警察として用いている有毒な言語や文書が大きなトレンドとなった。
この分析は、ソーシャルメディアで使用されているバングラの有害な言語の検出を強化し、この仮想疾患を治療すると考えられる。
論文 参考訳(メタデータ) (2023-12-09T05:04:34Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - BanglaSarc: A Dataset for Sarcasm Detection [0.3914676152740142]
Sarcasmは、今日のソーシャルメディアプラットフォームで広く採用されている、ネガティブな動機に基づく肯定的な発言や発言である。
過去数年間、英語におけるサルカズム検出は大幅に改善されてきたが、バングラのサルカズム検出に関する状況は変わっていない。
本稿では,Bangla Sarcを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:28:21Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Creating a Multimodal Dataset of Images and Text to Study Abusive
Language [2.2688530041645856]
CREENDERは、画像と虐待的なコメントのマルチモーダルデータセットを作成するために、学校で使用されているアノテーションツールである。
コーパスは、イタリアのコメントとともに、画像の主題がコメントをトリガーする役割を担っているかどうかを調べるために、異なる視点から分析されてきた。
画像中の人物の存在は、攻撃的なコメントを得る確率を高めるが、ユーザーは異なる方法で同じ画像を判断する。
論文 参考訳(メタデータ) (2020-05-05T14:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。