論文の概要: Leveraging cross-platform data to improve automated hate speech
detection
- arxiv url: http://arxiv.org/abs/2102.04895v1
- Date: Tue, 9 Feb 2021 15:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:05:09.999314
- Title: Leveraging cross-platform data to improve automated hate speech
detection
- Title(参考訳): プラットフォーム間データの活用によるヘイトスピーチの自動検出
- Authors: John D Gallacher
- Abstract要約: ヘイトスピーチ検出のための既存のアプローチは、単一のソーシャルメディアプラットフォームを独立して重視している。
本稿では,異なるプラットフォームからの複数のデータセットと分類モデルを活用するヘイトスピーチを検出するための,クロスプラットフォームアプローチを提案する。
このアプローチが既存のモデルより優れていることを実証し、新しいソーシャルメディアプラットフォームからのメッセージでテストすると、優れたパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech is increasingly prevalent online, and its negative outcomes
include increased prejudice, extremism, and even offline hate crime. Automatic
detection of online hate speech can help us to better understand these impacts.
However, while the field has recently progressed through advances in natural
language processing, challenges still remain. In particular, most existing
approaches for hate speech detection focus on a single social media platform in
isolation. This limits both the use of these models and their validity, as the
nature of language varies from platform to platform. Here we propose a new
cross-platform approach to detect hate speech which leverages multiple datasets
and classification models from different platforms and trains a superlearner
that can combine existing and novel training data to improve detection and
increase model applicability. We demonstrate how this approach outperforms
existing models, and achieves good performance when tested on messages from
novel social media platforms not included in the original training data.
- Abstract(参考訳): ヘイトスピーチはますますオンライン上で広まりつつあり、偏見、過激主義、さらにはオフラインヘイトクライムにまでネガティブな結果をもたらしている。
オンラインヘイトスピーチの自動検出は、これらの影響をよりよく理解するのに役立ちます。
しかし、自然言語処理の進歩によってこの分野は最近進歩しましたが、課題はまだ残っています。
特に、既存のヘイトスピーチ検出のアプローチのほとんどは、独立した単一のソーシャルメディアプラットフォームに焦点を当てている。
これは、言語の性質がプラットフォームによって異なるため、これらのモデルの使用と妥当性の両方を制限する。
本稿では,異なるプラットフォームから複数のデータセットと分類モデルを活用したヘイトスピーチ検出のための新たなクロスプラットフォームアプローチを提案し,既存のトレーニングデータと新たなトレーニングデータを組み合わせることで,検出とモデル適用性の向上を実現するスーパーリアナーをトレーニングする。
従来のトレーニングデータに含まれていない新しいソーシャルメディアプラットフォームからのメッセージでテストした場合、このアプローチが既存のモデルよりも優れたパフォーマンスを発揮することを実証します。
関連論文リスト
- Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Combating high variance in Data-Scarce Implicit Hate Speech
Classification [0.0]
我々は,最先端の性能を実現する新しいRoBERTaモデルを開発した。
本稿では,様々な最適化手法と正規化手法を探求し,最先端性能を実現するRoBERTaベースの新しいモデルを開発する。
論文 参考訳(メタデータ) (2022-08-29T13:45:21Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Deep Learning for Hate Speech Detection: A Comparative Study [55.89299508786084]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Statistical Analysis of Perspective Scores on Hate Speech Detection [7.447951461558536]
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
論文 参考訳(メタデータ) (2021-06-22T17:17:35Z) - An Online Multilingual Hate speech Recognition System [13.87667165678441]
6つのデータセットを1つの同質なデータセットに組み合わせて分析し、3つのクラスに分類します。
ほぼリアルタイムで有効なメトリックでページを識別し、スコア付けするツールを作成し、フィードバックでモデルを再トレーニングします。
英語とヒンディー語という2つの言語モデル上での多言語モデルの競合性能を証明し、ほとんどの単言語モデルに匹敵するあるいは優れた性能をもたらす。
論文 参考訳(メタデータ) (2020-11-23T16:33:48Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Towards Hate Speech Detection at Large via Deep Generative Modeling [4.080068044420974]
ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
論文 参考訳(メタデータ) (2020-05-13T15:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。