論文の概要: LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate
Speech Identification
- arxiv url: http://arxiv.org/abs/2304.00913v1
- Date: Mon, 3 Apr 2023 12:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:50:36.369637
- Title: LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate
Speech Identification
- Title(参考訳): lahm : multi-domain and multilingual hate speech identificationのための大規模注釈付きデータセット
- Authors: Ankit Yadav, Shubham Chandel, Sushant Chatufale and Anil Bandhakavi
- Abstract要約: 本稿では,英語,ヒンディー語,アラビア語,フランス語,ドイツ語,スペイン語の多言語ヘイトスピーチ分析データセットを提案する。
本論文は、これらの6言語において、これらの5つの広い領域において、様々な種類のヘイトスピーチを識別する問題に最初に対処するものである。
- 参考スコア(独自算出の注目度): 2.048680519934008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research on hate speech analysis is typically oriented towards
monolingual and single classification tasks. In this paper, we present a new
multilingual hate speech analysis dataset for English, Hindi, Arabic, French,
German and Spanish languages for multiple domains across hate speech - Abuse,
Racism, Sexism, Religious Hate and Extremism. To the best of our knowledge,
this paper is the first to address the problem of identifying various types of
hate speech in these five wide domains in these six languages. In this work, we
describe how we created the dataset, created annotations at high level and low
level for different domains and how we use it to test the current
state-of-the-art multilingual and multitask learning approaches. We evaluate
our dataset in various monolingual, cross-lingual and machine translation
classification settings and compare it against open source English datasets
that we aggregated and merged for this task. Then we discuss how this approach
can be used to create large scale hate-speech datasets and how to leverage our
annotations in order to improve hate speech detection and classification in
general.
- Abstract(参考訳): ヘイトスピーチ分析に関する現在の研究は、典型的には単言語および単一分類タスクに向けられている。
本稿では、英語、ヒンディー語、アラビア語、フランス語、ドイツ語、スペイン語の多言語用ヘイトスピーチ分析データセットについて、ヘイトスピーチにおける虐待、人種差別、性差別、宗教的なヘイト、過激主義といった複数のドメインについて述べる。
本論文は,この6つの言語において,これら5つの広い領域において,様々なタイプのヘイトスピーチを識別する問題を最初に解決した。
本稿では、データセットの作成方法を説明し、異なるドメインに対して高レベルかつ低レベルなアノテーションを作成し、現在の最先端のマルチ言語およびマルチタスク学習アプローチをテストする方法について説明する。
様々なモノリンガル、クロスリンガル、マシン翻訳の分類設定でデータセットを評価し、このタスクのために集約してマージしたオープンソースの英語データセットと比較します。
次に,このアプローチを大規模ヘイトスピーチデータセットの作成に活用し,ヘイトスピーチ検出と分類全般を改善するためにアノテーションを活用する方法について論じる。
関連論文リスト
- Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。