論文の概要: Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings
- arxiv url: http://arxiv.org/abs/2104.14728v1
- Date: Fri, 30 Apr 2021 02:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:52:46.533687
- Title: Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings
- Title(参考訳): 多言語ドメイン固有単語埋め込みに基づく言語間ヘイトスピーチ検出
- Authors: Aym\'e Arango, Jorge P\'erez and Barbara Poblete
- Abstract要約: トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
- 参考スコア(独自算出の注目度): 4.769747792846004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic hate speech detection in online social networks is an important
open problem in Natural Language Processing (NLP). Hate speech is a
multidimensional issue, strongly dependant on language and cultural factors.
Despite its relevance, research on this topic has been almost exclusively
devoted to English. Most supervised learning resources, such as labeled
datasets and NLP tools, have been created for this same language. Considering
that a large portion of users worldwide speak in languages other than English,
there is an important need for creating efficient approaches for multilingual
hate speech detection. In this work we propose to address the problem of
multilingual hate speech detection from the perspective of transfer learning.
Our goal is to determine if knowledge from one particular language can be used
to classify other language, and to determine effective ways to achieve this. We
propose a hate specific data representation and evaluate its effectiveness
against general-purpose universal representations most of which, unlike our
proposed model, have been trained on massive amounts of data. We focus on a
cross-lingual setting, in which one needs to classify hate speech in one
language without having access to any labeled data for that language. We show
that the use of our simple yet specific multilingual hate representations
improves classification results. We explain this with a qualitative analysis
showing that our specific representation is able to capture some common
patterns in how hate speech presents itself in different languages.
Our proposal constitutes, to the best of our knowledge, the first attempt for
constructing multilingual specific-task representations. Despite its
simplicity, our model outperformed the previous approaches for most of the
experimental setups. Our findings can orient future solutions toward the use of
domain-specific representations.
- Abstract(参考訳): オンラインソーシャルネットワークにおけるヘイトスピーチの自動検出は、自然言語処理(NLP)において重要な問題である。
ヘイトスピーチは多次元の問題であり、言語や文化的要因に強く依存している。
その関連性にもかかわらず、この話題に関する研究はほとんど英語に限られている。
ラベル付きデータセットやNLPツールなど、ほとんどの教師付き学習リソースがこの言語用に作成されている。
世界中のユーザーが英語以外の言語で話すことを考えると、多言語ヘイトスピーチ検出のための効率的なアプローチを作るための重要なニーズがある。
本研究では,トランスファー学習の観点から,多言語ヘイトスピーチ検出の問題に対処することを提案する。
我々のゴールは、ある特定の言語からの知識が他の言語を分類するのに使えるかどうかを判断し、これを達成する効果的な方法を決定することである。
我々はヘイト固有のデータ表現を提案し,その効果を汎用普遍表現に対して評価する。
我々は、言語横断的な設定に焦点を当て、その言語のためにラベル付きデータにアクセスすることなく、ある言語でヘイトスピーチを分類する必要がある。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
我々は、ヘイトスピーチが異なる言語でどのように現れるかに関して、我々の特定の表現が共通のパターンを捉えることができることを示す定性的な分析でこれを説明する。
提案は,我々の知る限りでは,多言語固有タスク表現構築の最初の試みである。
その単純さにもかかわらず、実験的なセットアップのほとんどにおいて、我々のモデルは以前のアプローチよりも優れていた。
我々の発見は、ドメイン固有表現の使用に対する将来の解決策を導き出すことができる。
関連論文リスト
- LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate
Speech Identification [2.048680519934008]
本稿では,英語,ヒンディー語,アラビア語,フランス語,ドイツ語,スペイン語の多言語ヘイトスピーチ分析データセットを提案する。
本論文は、これらの6言語において、これらの5つの広い領域において、様々な種類のヘイトスピーチを識別する問題に最初に対処するものである。
論文 参考訳(メタデータ) (2023-04-03T12:03:45Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。