Fugu-MT 論文翻訳(概要): Addressing the Challenges of Cross-Lingual Hate Speech Detection

論文の概要: Addressing the Challenges of Cross-Lingual Hate Speech Detection

arxiv url: http://arxiv.org/abs/2201.05922v1
Date: Sat, 15 Jan 2022 20:48:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-19 15:03:47.615458
Title: Addressing the Challenges of Cross-Lingual Hate Speech Detection
Title（参考訳）: 言語間ヘイト音声検出の課題への取り組み
Authors: Irina Bigoulaeva, Viktor Hangya, Iryna Gurevych, Alexander Fraser
Abstract要約: 本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
参考スコア（独自算出の注目度）: 115.1352779982269
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of hate speech detection is to filter negative online content aiming at certain groups of people. Due to the easy accessibility of social media platforms it is crucial to protect everyone which requires building hate speech detection systems for a wide range of languages. However, the available labeled hate speech datasets are limited making it problematic to build systems for many languages. In this paper we focus on cross-lingual transfer learning to support hate speech detection in low-resource languages. We leverage cross-lingual word embeddings to train our neural network systems on the source language and apply it to the target language, which lacks labeled examples, and show that good performance can be achieved. We then incorporate unlabeled target language data for further model improvements by bootstrapping labels using an ensemble of different model architectures. Furthermore, we investigate the issue of label imbalance of hate speech datasets, since the high ratio of non-hate examples compared to hate examples often leads to low model performance. We test simple data undersampling and oversampling techniques and show their effectiveness.
Abstract（参考訳）: ヘイトスピーチ検出の目的は、特定のグループを対象としたネガティブなオンラインコンテンツをフィルタリングすることだ。ソーシャルメディアプラットフォームのアクセシビリティは容易であるため、幅広い言語でヘイトスピーチ検出システムを構築する必要があるすべての人々を保護することが不可欠である。しかし、ラベル付きヘイトスピーチデータセットは制限されており、多くの言語でシステムを構築するのに問題がある。本稿では,低リソース言語におけるヘイトスピーチ検出を支援する言語間移動学習に着目した。私たちは、言語間の単語埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。次に、異なるモデルアーキテクチャのアンサンブルを使用してラベルをブートストラップすることで、さらなるモデル改善のためにラベルなしのターゲット言語データを取り込む。さらに,ヘイトサンプルに対する非ヘイトサンプルの比率が高いとモデル性能が低下することが多いため,ヘイト音声データセットのラベル不均衡の問題についても検討した。簡単なデータアンサンプリングとオーバーサンプリングをテストし,その効果を示す。

関連論文リスト

Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data [59.30098850050971]
言語間の変換学習は、ラベル付きデータに制限のあるタスクのパフォーマンスを向上させることができる。我々は、最寄りの検索を利用して、ターゲット言語における最小ラベル付きデータを増強する。提案手法を8言語で評価し,対象言語データのみに基づいてトレーニングしたモデルよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-05-20T12:25:33Z)
Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文参考訳（メタデータ） (2025-05-09T16:00:01Z)
Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文参考訳（メタデータ） (2024-11-03T04:11:33Z)
Hate Speech Detection in Limited Data Contexts using Synthetic Data Generation [1.9506923346234724]
本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
論文参考訳（メタデータ） (2023-10-04T15:10:06Z)
How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文参考訳（メタデータ） (2023-05-23T14:04:12Z)
Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文参考訳（メタデータ） (2022-10-20T15:49:00Z)
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文参考訳（メタデータ） (2022-02-22T20:55:31Z)
Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文参考訳（メタデータ） (2022-02-19T03:48:20Z)
Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文参考訳（メタデータ） (2022-01-27T03:09:38Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Cross-lingual hate speech detection based on multilingual domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文参考訳（メタデータ） (2021-04-30T02:24:50Z)
Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文参考訳（メタデータ） (2020-07-29T19:38:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。