論文の概要: Towards Hate Speech Detection at Large via Deep Generative Modeling
- arxiv url: http://arxiv.org/abs/2005.06370v1
- Date: Wed, 13 May 2020 15:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 12:41:16.779884
- Title: Towards Hate Speech Detection at Large via Deep Generative Modeling
- Title(参考訳): 深部生成モデルによる大規模ヘイトスピーチ検出に向けて
- Authors: Tomer Wullach, Amir Adler, Einat Minkov
- Abstract要約: ヘイトスピーチ検出はソーシャルメディアプラットフォームにおいて重要な問題である。
生成言語モデルにより生成された100万件の現実的憎悪と非憎悪のシーケンスのデータセットを提示する。
5つの公開ヘイトスピーチデータセットで一貫した、重要なパフォーマンス改善を実証する。
- 参考スコア(独自算出の注目度): 4.080068044420974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech detection is a critical problem in social media platforms, being
often accused for enabling the spread of hatred and igniting physical violence.
Hate speech detection requires overwhelming resources including
high-performance computing for online posts and tweets monitoring as well as
thousands of human experts for daily screening of suspected posts or tweets.
Recently, Deep Learning (DL)-based solutions have been proposed for automatic
detection of hate speech, using modest-sized training datasets of few thousands
of hate speech sequences. While these methods perform well on the specific
datasets, their ability to detect new hate speech sequences is limited and has
not been investigated. Being a data-driven approach, it is well known that DL
surpasses other methods whenever a scale-up in train dataset size and diversity
is achieved. Therefore, we first present a dataset of 1 million realistic hate
and non-hate sequences, produced by a deep generative language model. We
further utilize the generated dataset to train a well-studied DL-based hate
speech detector, and demonstrate consistent and significant performance
improvements across five public hate speech datasets. Therefore, the proposed
solution enables high sensitivity detection of a very large variety of hate
speech sequences, paving the way to a fully automatic solution.
- Abstract(参考訳): ヘイトスピーチの検出はソーシャルメディアプラットフォームにおいて重要な問題であり、しばしば憎しみの拡散と身体的暴力の発火を許容しているとして非難される。
ヘイトスピーチ検出には、オンライン投稿やツイート監視のための高性能コンピューティングや、疑わしい投稿やツイートを毎日スクリーニングする何千もの人間専門家を含む圧倒的なリソースが必要である。
近年,数千のヘイトスピーチシーケンスのゆるやかなトレーニングデータセットを用いたヘイトスピーチの自動検出のためのディープラーニング(dl)ベースのソリューションが提案されている。
これらの手法は特定のデータセットでよく機能するが、新しいヘイトスピーチシーケンスを検出する能力は制限されており、研究されていない。
データ駆動型アプローチであるDLは、列車のデータセットサイズと多様性のスケールアップが達成されると、他の手法を超えることはよく知られている。
そこで,我々はまず,深層生成言語モデルを用いて生成した100万件の現実的憎悪と非憎悪シーケンスのデータセットを提示する。
さらに,この生成したデータセットを用いて,dlベースのヘイト音声検出装置を訓練し,5つのパブリックヘイト音声データセットにおける一貫性と大幅なパフォーマンス向上を実証する。
そこで,提案手法は,多種多様なヘイト音声列の高感度検出を可能にし,完全自動解への道を開く。
関連論文リスト
- A Target-Aware Analysis of Data Augmentation for Hate Speech Detection [3.858155067958448]
ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。
本稿では,既存のデータを生成言語モデルで拡張し,ターゲットの不均衡を低減する可能性を検討する。
起源、宗教、障害などのヘイトカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインが存在しない場合、10%以上のF1が向上する。
論文 参考訳(メタデータ) (2024-10-10T15:46:27Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - Hate Speech Detection in Limited Data Contexts using Synthetic Data
Generation [1.9506923346234724]
本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。
対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。
以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
論文 参考訳(メタデータ) (2023-10-04T15:10:06Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Character-level HyperNetworks for Hate Speech Detection [3.50640918825436]
ヘイトスピーチ検出の自動化手法は、通常、最先端のディープラーニング(DL)ベースのテキスト分類器を用いる。
本稿では,ハイトスピーチ検出のためのHyperNetworksを提案する。これは,小規模補助ネットワークによって重みが制御される特殊なDLネットワークのクラスである。
我々は最先端の言語モデルに匹敵する、あるいは優れたパフォーマンスを達成し、事前訓練され、桁数は桁違いに大きい。
論文 参考訳(メタデータ) (2021-11-11T17:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。