論文の概要: Exploratory Data Analysis on Code-mixed Misogynistic Comments
- arxiv url: http://arxiv.org/abs/2403.09709v1
- Date: Sat, 9 Mar 2024 23:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 07:56:27.281704
- Title: Exploratory Data Analysis on Code-mixed Misogynistic Comments
- Title(参考訳): コードミキシングミソジニスティックコメントの探索的データ解析
- Authors: Sargam Yadav, Abhishek Kaushik, Kevin McDaid,
- Abstract要約: 我々は、ミックスコードHinglishでYouTubeコメントの新しいデータセットを提示する。
これらのコメントは「ミソジニスト」と「非ミソジニスト」とラベル付けされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problems of online hate speech and cyberbullying have significantly worsened since the increase in popularity of social media platforms such as YouTube and Twitter (X). Natural Language Processing (NLP) techniques have proven to provide a great advantage in automatic filtering such toxic content. Women are disproportionately more likely to be victims of online abuse. However, there appears to be a lack of studies that tackle misogyny detection in under-resourced languages. In this short paper, we present a novel dataset of YouTube comments in mix-code Hinglish collected from YouTube videos which have been weak labelled as `Misogynistic' and `Non-misogynistic'. Pre-processing and Exploratory Data Analysis (EDA) techniques have been applied on the dataset to gain insights on its characteristics. The process has provided a better understanding of the dataset through sentiment scores, word clouds, etc.
- Abstract(参考訳): オンラインヘイトスピーチやサイバーいじめの問題は、YouTubeやTwitter(X)といったソーシャルメディアプラットフォームの人気が高まり、大幅に悪化している。
自然言語処理(NLP)技術は、このような有害なコンテンツを自動フィルタリングする上で大きな利点をもたらすことが証明されている。
女性はオンライン虐待の被害者になりがちだ。
しかし、アンダーリソース言語における誤検出に対処する研究が不足しているようである。
本稿では,YouTube ビデオから収集したミックスコード Hinglish に,YouTube コメントの新たなデータセットを提示する。
データセットに事前処理と探索データ分析(EDA)技術を適用し,その特性について考察した。
このプロセスは、感情スコアやワードクラウドなどを通じてデータセットをよりよく理解している。
関連論文リスト
- Breaking the Silence Detecting and Mitigating Gendered Abuse in Hindi, Tamil, and Indian English Online Spaces [0.6543929004971272]
チームCNLP-NITS-PPは、CNNとBiLSTMネットワークを組み合わせたアンサンブルアプローチを開発した。
CNNは、組み込み入力テキストに適用される畳み込みフィルタを通じて、乱用言語を表す局所的な特徴をキャプチャする。
BiLSTMは、単語とフレーズ間の依存関係について、このシーケンスを解析する。
評価スコアはf1尺度、特に英語0.84に対して高い性能を示した。
論文 参考訳(メタデータ) (2024-04-02T14:55:47Z) - Anti-Sexism Alert System: Identification of Sexist Comments on Social
Media Using AI Techniques [0.0]
ソーシャルメディア(新聞記事のコメント、ソーシャルネットワークなど)に投稿された性的なコメントは、通常多くの注目を集め、ウイルスに感染し、関係者に被害を与える。
本稿では,自然言語処理(NLP)と人工知能(AI)に基づく反性行為警告システムを提案する。
このシステムはあらゆる公開投稿を分析し、性差別的なコメントと見なせるかどうかを判断する。
論文 参考訳(メタデータ) (2023-11-28T19:48:46Z) - Subtle Misogyny Detection and Mitigation: An Expert-Annotated Dataset [5.528106559459623]
Biaslyデータセットは、複数の専門分野の専門家やアノテータとのコラボレーションによって構築されている。
データセットは、分類、重度スコアの回帰、書き直しのためのテキスト生成など、さまざまなNLPタスクに使用することができる。
論文 参考訳(メタデータ) (2023-11-15T23:27:19Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Topological Data Mapping of Online Hate Speech, Misinformation, and
General Mental Health: A Large Language Model Based Study [6.803493330690884]
機械学習と大規模言語モデルの最近の進歩は、そのような分析を可能にした。
本研究では,ソーシャルメディアサイトReddit上で,慎重に選択されたコミュニティから何千もの投稿を収集した。
各種コミュニティにおけるヘイトスピーチ/誤情報の役割を理解するため,埋め込みに基づく各種機械学習分類を行った。
論文 参考訳(メタデータ) (2023-09-22T15:10:36Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z) - Developing a Multilingual Annotated Corpus of Misogyny and Aggression [1.0187588674939276]
インド英語,ヒンディー語,インド・バングラ語における多言語アノテート・コーパスの展開について論じる。
データセットはYouTubeビデオのコメントから収集され、現在合計2万以上のコメントが含まれている。
論文 参考訳(メタデータ) (2020-03-16T20:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。