論文の概要: Large-Scale Hate Speech Detection with Cross-Domain Transfer
- arxiv url: http://arxiv.org/abs/2203.01111v1
- Date: Wed, 2 Mar 2022 14:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 15:35:33.367773
- Title: Large-Scale Hate Speech Detection with Cross-Domain Transfer
- Title(参考訳): クロスドメイン転送による大規模ヘイト音声検出
- Authors: Cagri Toraman, Furkan \c{S}ahinu\c{c}, Eyup Halit Y{\i}lmaz
- Abstract要約: 我々は、ヘイトスピーチ検出のための大規模ツイートデータセットを英語と低リソース言語であるトルコ語で構築する。
私たちのデータセットは、5つのドメインにまたがる同じ数のツイートを持つように設計されています。
トランスフォーマーベースの言語モデルは、英語では少なくとも5%、トルコ語では10%、従来のbag-of-wordやニューラルモデルよりも優れています。
- 参考スコア(独自算出の注目度): 2.7716102039510564
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of hate speech detection models relies on the datasets on
which the models are trained. Existing datasets are mostly prepared with a
limited number of instances or hate domains that define hate topics. This
hinders large-scale analysis and transfer learning with respect to hate
domains. In this study, we construct large-scale tweet datasets for hate speech
detection in English and a low-resource language, Turkish, consisting of
human-labeled 100k tweets per each. Our datasets are designed to have equal
number of tweets distributed over five domains. The experimental results
supported by statistical tests show that Transformer-based language models
outperform conventional bag-of-words and neural models by at least 5% in
English and 10% in Turkish for large-scale hate speech detection. The
performance is also scalable to different training sizes, such that 98% of
performance in English, and 97% in Turkish, are recovered when 20% of training
instances are used. We further examine the generalization ability of
cross-domain transfer among hate domains. We show that 96% of the performance
of a target domain in average is recovered by other domains for English, and
92% for Turkish. Gender and religion are more successful to generalize to other
domains, while sports fail most.
- Abstract(参考訳): ヘイトスピーチ検出モデルの性能は、モデルがトレーニングされたデータセットに依存する。
既存のデータセットは、主にヘイトトピックを定義する限られた数のインスタンスやヘイトドメインで準備されている。
これにより、ヘイトドメインに関する大規模な分析と転校学習が妨げられる。
本研究では,英語におけるヘイトスピーチ検出のための大規模ツイートデータセットと,人間ラベル付き100万ツイートからなる低リソース言語であるトルコ語を構築した。
当社のデータセットは、5つのドメインに同じ数のツイートを分散するように設計されています。
その結果,トランスフォーマーをベースとした言語モデルは,英語では少なくとも5%,トルコ語では10%以上,大規模ヘイトスピーチ検出では10%以上の性能を示した。
トレーニングインスタンスの20%を使用すると、英語のパフォーマンスの98%、トルコ語のパフォーマンスの97%が回復される。
さらに,ヘイトドメイン間のクロスドメイン転送の一般化について検討する。
対象ドメインのパフォーマンスの96%は、英語の他のドメインによって回復され、トルコ語では92%である。
性や宗教は他の領域に一般化するのがより成功し、スポーツは最も失敗する。
関連論文リスト
- LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate
Speech Identification [2.048680519934008]
本稿では,英語,ヒンディー語,アラビア語,フランス語,ドイツ語,スペイン語の多言語ヘイトスピーチ分析データセットを提案する。
本論文は、これらの6言語において、これらの5つの広い領域において、様々な種類のヘイトスピーチを識別する問題に最初に対処するものである。
論文 参考訳(メタデータ) (2023-04-03T12:03:45Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。