論文の概要: Highly Generalizable Models for Multilingual Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2201.11294v1
- Date: Thu, 27 Jan 2022 03:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 00:43:19.659921
- Title: Highly Generalizable Models for Multilingual Hate Speech Detection
- Title(参考訳): 多言語ヘイトスピーチ検出のための高一般化モデル
- Authors: Neha Deshpande, Nicholas Farris, and Vidhur Kumar
- Abstract要約: ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection has become an important research topic within the past
decade. More private corporations are needing to regulate user generated
content on different platforms across the globe. In this paper, we introduce a
study of multilingual hate speech classification. We compile a dataset of 11
languages and resolve different taxonomies by analyzing the combined data with
binary labels: hate speech or not hate speech. Defining hate speech in a single
way across different languages and datasets may erase cultural nuances to the
definition, therefore, we utilize language agnostic embeddings provided by
LASER and MUSE in order to develop models that can use a generalized definition
of hate speech across datasets. Furthermore, we evaluate prior state of the art
methodologies for hate speech detection under our expanded dataset. We conduct
three types of experiments for a binary hate speech classification task:
Multilingual-Train Monolingual-Test, MonolingualTrain Monolingual-Test and
Language-Family-Train Monolingual Test scenarios to see if performance
increases for each language due to learning more from other language data.
- Abstract(参考訳): ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
多くの民間企業が、世界中の異なるプラットフォーム上でユーザー生成コンテンツを規制する必要がある。
本稿では,多言語ヘイトスピーチの分類について検討する。
11の言語からなるデータセットをコンパイルし,バイナリラベルと組み合わせたデータを解析することで,異なる分類法を解決した。
異なる言語やデータセットにまたがってヘイトスピーチを単一の方法で定義することは、その定義に対する文化的ニュアンスを消去する可能性があるため、RAERやMUSEが提供する言語に依存しない埋め込みを利用して、データセット全体にわたるヘイトスピーチの一般的な定義を利用できるモデルを開発する。
さらに,この拡張データセットにおいて,ヘイトスピーチ検出のための技術手法の事前評価を行った。
マルチリンガル・トレイン・モノリンガル・テスト、モノリンガル・トレイン・モノリンガル・テスト、言語・ファミリー・トレイン・モノリンガル・テストの3つのシナリオを用いて、他の言語データから学習することで、各言語のパフォーマンスが向上するかどうかを確認する。
関連論文リスト
- Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate
Speech Identification [2.048680519934008]
本稿では,英語,ヒンディー語,アラビア語,フランス語,ドイツ語,スペイン語の多言語ヘイトスピーチ分析データセットを提案する。
本論文は、これらの6言語において、これらの5つの広い領域において、様々な種類のヘイトスピーチを識別する問題に最初に対処するものである。
論文 参考訳(メタデータ) (2023-04-03T12:03:45Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。