Fugu-MT 論文翻訳(概要): Bangla Text Dataset and Exploratory Analysis for Online Harassment Detection

論文の概要: Bangla Text Dataset and Exploratory Analysis for Online Harassment Detection

arxiv url: http://arxiv.org/abs/2102.02478v1
Date: Thu, 4 Feb 2021 08:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 21:48:13.817935
Title: Bangla Text Dataset and Exploratory Analysis for Online Harassment Detection
Title（参考訳）: オンラインハラスメント検出のためのバングラテキストデータセットと探索分析
Authors: Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin Ashraf
Abstract要約: この記事でアクセス可能になったデータは、有名人、政府高官、そしてFacebook上のアスリートによる公開投稿の人々のコメントから収集され、マークされている。データセットは、コメントがいじめの表現であるか否かを区別するマシンの開発を目的としてコンパイルされる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Being the seventh most spoken language in the world, the use of the Bangla language online has increased in recent times. Hence, it has become very important to analyze Bangla text data to maintain a safe and harassment-free online place. The data that has been made accessible in this article has been gathered and marked from the comments of people in public posts by celebrities, government officials, athletes on Facebook. The total amount of collected comments is 44001. The dataset is compiled with the aim of developing the ability of machines to differentiate whether a comment is a bully expression or not with the help of Natural Language Processing and to what extent it is improper if it is an inappropriate comment. The comments are labeled with different categories of harassment. Exploratory analysis from different perspectives is also included in this paper to have a detailed overview. Due to the scarcity of data collection of categorized Bengali language comments, this dataset can have a significant role for research in detecting bully words, identifying inappropriate comments, detecting different categories of Bengali bullies, etc. The dataset is publicly available at https://data.mendeley.com/datasets/9xjx8twk8p.
Abstract（参考訳）: 世界で7番目に話されている言語であるため、オンラインバングラ言語の使用は近年増加しています。したがって、バングラのテキストデータを分析し、安全で嫌がらせのないオンライン環境を維持することが非常に重要である。この記事でアクセス可能にされたデータは、著名人、政府職員、facebook上のアスリートによる投稿中の人々のコメントから収集され、マークされている。集められたコメントの合計量は44001です。このデータセットは、コメントがいじめ表現であるか否かを自然言語処理の助けを借りて区別し、不適切なコメントである場合にどの程度不適切であるかをマシンが判断する能力を開発するためにコンパイルされる。コメントはハラスメントの異なるカテゴリでラベル付けされています。本論文では,異なる視点からの探索的解析についても詳細に述べる。分類されたベンガル語コメントのデータ収集が不足しているため、このデータセットは、いじめ語の検出、不適切なコメントの特定、ベンガル語の様々な分類の検出など、研究において重要な役割を果たす可能性がある。データセットはhttps://data.mendeley.com/datasets/9xjx8twk8pで公開されている。

関連論文リスト

SenWave: A Fine-Grained Multi-Language Sentiment Analysis Dataset Sourced from COVID-19 Tweets [42.98177831933239]
SenWaveは、新型コロナウイルス(COVID-19)のツイートを分析するために特別に設計された、新しい微粒な多言語感情分析データセットである。このデータセットは、英語とアラビア語でそれぞれ1万の注釈付きツイートと、スペイン語、フランス語、イタリア語で3万の翻訳ツイートで構成されている。本研究は,言語,国,トピック間の進化する情緒的景観を詳細に分析し,時間とともに重要な洞察を明らかにする。
論文参考訳（メタデータ） (2025-10-09T13:38:05Z)
BIDWESH: A Bangla Regional Based Hate Speech Detection Dataset [0.0]
本研究は,バングラヘイトスピーチデータセットであるBIDWESHを紹介する。 BD-SHSコーパスから9,183のインスタンスを3つの主要地域方言に翻訳し、注釈付けすることで構築された。その結果得られたデータセットは、バングラでヘイトスピーチの検出を進めるための言語的にリッチでバランスの取れた、包括的なリソースを提供する。
論文参考訳（メタデータ） (2025-07-22T02:53:48Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文参考訳（メタデータ） (2024-02-19T02:15:34Z)
Textual Toxicity in Social Media: Understanding the Bangla Toxic Language Expressed in Facebook Comment [0.6798775532273751]
バングラデシュや西ベンガルのソーシャルメディア文化において、ベンガルのコミュニティがサイバーいじめ、ヘイトスピーチ、道徳的警察として用いている有毒な言語や文書が大きなトレンドとなった。この分析は、ソーシャルメディアで使用されているバングラの有害な言語の検出を強化し、この仮想疾患を治療すると考えられる。
論文参考訳（メタデータ） (2023-12-09T05:04:34Z)
Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。 CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文参考訳（メタデータ） (2023-08-31T13:14:47Z)
Detecting Unintended Social Bias in Toxic Language Datasets [32.724030288421474]
本稿では,既存のKaggleコンペティションのデータセットであるJigsaw Unintended Bias in Toxicity Classificationから算出した新しいデータセットであるToxicBiasを紹介する。データセットには、5つの異なるバイアスカテゴリ、viz.、性、人種/民族性、宗教、政治的、LGBTQに注釈付けされたインスタンスが含まれている。得られたデータセットを用いてトランスフォーマーベースモデルをトレーニングし、バイアス識別、ターゲット生成、バイアス含意に関するベースライン性能を報告する。
論文参考訳（メタデータ） (2022-10-21T06:50:12Z)
Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。また、分類性能を高めるための言語間移動機構についても検討する。
論文参考訳（メタデータ） (2022-10-07T12:06:04Z)
BanglaSarc: A Dataset for Sarcasm Detection [0.3914676152740142]
Sarcasmは、今日のソーシャルメディアプラットフォームで広く採用されている、ネガティブな動機に基づく肯定的な発言や発言である。過去数年間、英語におけるサルカズム検出は大幅に改善されてきたが、バングラのサルカズム検出に関する状況は変わっていない。本稿では,Bangla Sarcを提案する。
論文参考訳（メタデータ） (2022-09-27T15:28:21Z)
Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文参考訳（メタデータ） (2022-03-04T15:59:06Z)
COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文参考訳（メタデータ） (2022-01-16T11:47:23Z)
Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文参考訳（メタデータ） (2021-02-23T16:47:41Z)
Hate Speech detection in the Bengali language: A dataset and its baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文参考訳（メタデータ） (2020-12-17T15:53:54Z)
Hostility Detection Dataset in Hindi [44.221862384125245]
ヒンディー語で8200のオンライン投稿を手作業で収集し、注釈付けします。データセットは、敵対的なクラス間で大きな重複があるため、マルチラベルタグとして考慮されている。
論文参考訳（メタデータ） (2020-11-06T20:33:12Z)
Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文参考訳（メタデータ） (2020-08-02T17:23:55Z)
Creating a Multimodal Dataset of Images and Text to Study Abusive Language [2.2688530041645856]
CREENDERは、画像と虐待的なコメントのマルチモーダルデータセットを作成するために、学校で使用されているアノテーションツールである。コーパスは、イタリアのコメントとともに、画像の主題がコメントをトリガーする役割を担っているかどうかを調べるために、異なる視点から分析されてきた。画像中の人物の存在は、攻撃的なコメントを得る確率を高めるが、ユーザーは異なる方法で同じ画像を判断する。
論文参考訳（メタデータ） (2020-05-05T14:31:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。