論文の概要: Exploring multi-task multi-lingual learning of transformer models for
hate speech and offensive speech identification in social media
- arxiv url: http://arxiv.org/abs/2101.11155v1
- Date: Wed, 27 Jan 2021 01:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 07:12:01.047902
- Title: Exploring multi-task multi-lingual learning of transformer models for
hate speech and offensive speech identification in social media
- Title(参考訳): ソーシャルメディアにおけるヘイトスピーチと攻撃的音声識別のためのトランスフォーマーモデルのマルチタスク多言語学習
- Authors: Sudhanshu Mishra, Shivangi Prasad, Shubhanshu Mishra
- Abstract要約: 我々は、ヘイトスピーチの3つのサブタスクを解決するために、マルチタスクとマルチ言語アプローチを用いる。
これらのサブタスクは、インド・ヨーロッパ語におけるヘイトスピーチと攻撃的コンテンツ(HASOC)の識別に関する2019年の共有タスクの一部だった。
異なる言語やタスクで容易に一般化できるモデルを得るために、異なる組み合わせのアプローチを利用することが可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hate Speech has become a major content moderation issue for online social
media platforms. Given the volume and velocity of online content production, it
is impossible to manually moderate hate speech related content on any platform.
In this paper we utilize a multi-task and multi-lingual approach based on
recently proposed Transformer Neural Networks to solve three sub-tasks for hate
speech. These sub-tasks were part of the 2019 shared task on hate speech and
offensive content (HASOC) identification in Indo-European languages. We expand
on our submission to that competition by utilizing multi-task models which are
trained using three approaches, a) multi-task learning with separate task
heads, b) back-translation, and c) multi-lingual training. Finally, we
investigate the performance of various models and identify instances where the
Transformer based models perform differently and better. We show that it is
possible to to utilize different combined approaches to obtain models that can
generalize easily on different languages and tasks, while trading off slight
accuracy (in some cases) for a much reduced inference time compute cost. We
open source an updated version of our HASOC 2019 code with the new improvements
at https://github.com/socialmediaie/MTML_HateSpeech.
- Abstract(参考訳): ヘイトスピーチは、オンラインソーシャルメディアプラットフォームの主要なコンテンツモデレーション問題となっています。
オンラインコンテンツ制作の量と速度を考えると、どのプラットフォーム上でもヘイトスピーチ関連のコンテンツを手動で調整することは不可能です。
本稿では,最近提案されたTransformer Neural Networksに基づくマルチタスクと多言語アプローチを用いて,ヘイトスピーチのための3つのサブタスクを解決する。
これらのサブタスクは、2019年のヘイトスピーチとアタックコンテンツ(HASOC)識別に関する共有タスクの一部でした。
我々は,3つのアプローチを用いて学習したマルチタスクモデル,a)タスクの異なるマルチタスク学習,b)バックトランスレーション,c)多言語学習を活用することで,その競争への提案を拡大する。
最後に,様々なモデルの性能を調査し,トランスフォーマティブモデルの性能が異なるインスタンスを識別する。
様々な言語やタスクで容易に一般化できるモデルを得るための異なる組み合わせアプローチを活用でき、また推論時間計算コストを大幅に削減するためにわずかな精度(場合によっては)をトレードオフできることを示した。
HASOC 2019コードの更新版を、https://github.com/socialmediaie/MTML_HateSpeech.comで公開しました。
関連論文リスト
- SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [59.54465462717297]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。