論文の概要: Hateful Messages: A Conversational Data Set of Hate Speech produced by
Adolescents on Discord
- arxiv url: http://arxiv.org/abs/2309.01413v1
- Date: Mon, 4 Sep 2023 07:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:33:18.398758
- Title: Hateful Messages: A Conversational Data Set of Hate Speech produced by
Adolescents on Discord
- Title(参考訳): ヘイトフルメッセージ:若者が音声で生成したヘイトスピーチの会話データセット
- Authors: Jan Fillies, Silvio Peikert, Adrian Paschke
- Abstract要約: 本研究は,ヘイトスピーチ分類における若者言語のバイアスについて考察する。
データセットは、チャットプラットフォームDiscordから公開されているオンラインメッセージで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rise of social media, a rise of hateful content can be observed.
Even though the understanding and definitions of hate speech varies, platforms,
communities, and legislature all acknowledge the problem. Therefore,
adolescents are a new and active group of social media users. The majority of
adolescents experience or witness online hate speech. Research in the field of
automated hate speech classification has been on the rise and focuses on
aspects such as bias, generalizability, and performance. To increase
generalizability and performance, it is important to understand biases within
the data. This research addresses the bias of youth language within hate speech
classification and contributes by providing a modern and anonymized hate speech
youth language data set consisting of 88.395 annotated chat messages. The data
set consists of publicly available online messages from the chat platform
Discord. ~6,42% of the messages were classified by a self-developed annotation
schema as hate speech. For 35.553 messages, the user profiles provided age
annotations setting the average author age to under 20 years old.
- Abstract(参考訳): ソーシャルメディアの台頭に伴い、憎悪的なコンテンツの台頭が観察される。
ヘイトスピーチの理解と定義は様々であるが、プラットフォーム、コミュニティ、立法府は全てこの問題を認めている。
したがって、青年はソーシャルメディアユーザーの新しく活発なグループである。
青少年の大多数はオンラインヘイトスピーチを経験または目撃している。
ヘイトスピーチの自動分類の分野での研究は、バイアス、一般化性、パフォーマンスといった側面に焦点が当てられている。
一般化性と性能を向上させるためには,データのバイアスを理解することが重要である。
本研究は、ヘイトスピーチ分類における若者言語のバイアスに対処し、88.395の注釈付きチャットメッセージからなる現代的で匿名化されたヘイトスピーチ青年言語データセットを提供することによって貢献する。
データセットはチャットプラットフォームのDiscordから公開されているオンラインメッセージで構成されている。
メッセージの約6,42%は、ヘイトスピーチとして自己開発アノテーションスキーマによって分類された。
35.553のメッセージに対して、ユーザープロファイルは平均著者年齢を20歳未満に設定する年齢アノテーションを提供した。
関連論文リスト
- A Survey on Automatic Online Hate Speech Detection in Low-Resource Languages [0.5825410941577593]
ソーシャルメディアとインターネットのアクセシビリティはヘイトスピーチの普及を促している。
本稿は、世界中の低リソース言語におけるヘイトスピーチ検出に関する詳細な調査である。
論文 参考訳(メタデータ) (2024-11-28T09:42:53Z) - ProvocationProbe: Instigating Hate Speech Dataset from Twitter [0.39052860539161904]
textitProvocationProbeは、ヘイトスピーチを一般的なヘイトスピーチと区別するためのデータセットである。
本研究では、Twitterから約2万件のツイートを収集し、全世界で9件の論争を巻き起こした。
論文 参考訳(メタデータ) (2024-10-25T16:57:59Z) - Analyzing User Characteristics of Hate Speech Spreaders on Social Media [20.57872238271025]
ヘイトスピーチにおけるユーザ特性の役割を分析する。
社会的影響の少ないユーザーは、ヘイトスピーチをシェアする傾向にある。
政治的反トランプと反右派憎悪は、より大きな社会的影響力を持つユーザーによって再創造される。
論文 参考訳(メタデータ) (2023-10-24T12:17:48Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Hate Speech Detection in Clubhouse [6.942237543984334]
Google Perspective Scoresを用いて,収集したインスタンスを統計的視点から分析する。
我々の実験では、パースペクティブスコアは、高レベルのテキスト機能として、WordsとWord2Vecのバグよりも優れています。
論文 参考訳(メタデータ) (2021-06-24T11:00:19Z) - Towards generalisable hate speech detection: a review on obstacles and
solutions [6.531659195805749]
本稿では,既存のヘイトスピーチ検出モデルの一般化について概説する。
主な障害に対処する既存の試みを要約し、ヘイトスピーチ検出における一般化を改善するための今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2021-02-17T17:27:48Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。