論文の概要: Leveraging cross-platform data to improve automated hate speech
detection
- arxiv url: http://arxiv.org/abs/2102.04895v1
- Date: Tue, 9 Feb 2021 15:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:05:09.999314
- Title: Leveraging cross-platform data to improve automated hate speech
detection
- Title(参考訳): プラットフォーム間データの活用によるヘイトスピーチの自動検出
- Authors: John D Gallacher
- Abstract要約: ヘイトスピーチ検出のための既存のアプローチは、単一のソーシャルメディアプラットフォームを独立して重視している。
本稿では,異なるプラットフォームからの複数のデータセットと分類モデルを活用するヘイトスピーチを検出するための,クロスプラットフォームアプローチを提案する。
このアプローチが既存のモデルより優れていることを実証し、新しいソーシャルメディアプラットフォームからのメッセージでテストすると、優れたパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech is increasingly prevalent online, and its negative outcomes
include increased prejudice, extremism, and even offline hate crime. Automatic
detection of online hate speech can help us to better understand these impacts.
However, while the field has recently progressed through advances in natural
language processing, challenges still remain. In particular, most existing
approaches for hate speech detection focus on a single social media platform in
isolation. This limits both the use of these models and their validity, as the
nature of language varies from platform to platform. Here we propose a new
cross-platform approach to detect hate speech which leverages multiple datasets
and classification models from different platforms and trains a superlearner
that can combine existing and novel training data to improve detection and
increase model applicability. We demonstrate how this approach outperforms
existing models, and achieves good performance when tested on messages from
novel social media platforms not included in the original training data.
- Abstract(参考訳): ヘイトスピーチはますますオンライン上で広まりつつあり、偏見、過激主義、さらにはオフラインヘイトクライムにまでネガティブな結果をもたらしている。
オンラインヘイトスピーチの自動検出は、これらの影響をよりよく理解するのに役立ちます。
しかし、自然言語処理の進歩によってこの分野は最近進歩しましたが、課題はまだ残っています。
特に、既存のヘイトスピーチ検出のアプローチのほとんどは、独立した単一のソーシャルメディアプラットフォームに焦点を当てている。
これは、言語の性質がプラットフォームによって異なるため、これらのモデルの使用と妥当性の両方を制限する。
本稿では,異なるプラットフォームから複数のデータセットと分類モデルを活用したヘイトスピーチ検出のための新たなクロスプラットフォームアプローチを提案し,既存のトレーニングデータと新たなトレーニングデータを組み合わせることで,検出とモデル適用性の向上を実現するスーパーリアナーをトレーニングする。
従来のトレーニングデータに含まれていない新しいソーシャルメディアプラットフォームからのメッセージでテストした場合、このアプローチが既存のモデルよりも優れたパフォーマンスを発揮することを実証します。
関連論文リスト
- Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - Empirical Evaluation of Public HateSpeech Datasets [0.0]
ソーシャルメディアプラットフォームは、ヘイトスピーチ検出のための機械学習アルゴリズムのトレーニングと評価に使用されるデータセットを生成するために広く利用されている。
既存の公開データセットには多くの制限があり、これらのアルゴリズムの効果的な訓練を妨げ、不正確なヘイトスピーチ分類につながる。
この研究は、ヘイトスピーチ検出のためのより正確で信頼性の高い機械学習モデルの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-27T11:20:52Z) - Hate Speech Detection in Limited Data Contexts using Synthetic Data
Generation [1.9506923346234724]
本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。
対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。
以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
論文 参考訳(メタデータ) (2023-10-04T15:10:06Z) - Causality Guided Disentanglement for Cross-Platform Hate Speech
Detection [15.489092194564149]
ソーシャルメディアプラットフォームはオープンな言論を促進する価値があるにもかかわらず、しばしば有害なコンテンツを広めるために利用される。
本研究では,あるプラットフォームのデータに基づいて学習し,複数のプラットフォームに一般化可能な,クロスプラットフォームのヘイトスピーチ検出モデルを提案する。
4つのプラットフォームにわたる実験は、一般化されたヘイトスピーチを検出する既存の最先端手法と比較して、モデルの有効性が向上していることを強調した。
論文 参考訳(メタデータ) (2023-08-03T23:39:03Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。