論文の概要: Exploring multi-task multi-lingual learning of transformer models for
hate speech and offensive speech identification in social media
- arxiv url: http://arxiv.org/abs/2101.11155v1
- Date: Wed, 27 Jan 2021 01:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 07:12:01.047902
- Title: Exploring multi-task multi-lingual learning of transformer models for
hate speech and offensive speech identification in social media
- Title(参考訳): ソーシャルメディアにおけるヘイトスピーチと攻撃的音声識別のためのトランスフォーマーモデルのマルチタスク多言語学習
- Authors: Sudhanshu Mishra, Shivangi Prasad, Shubhanshu Mishra
- Abstract要約: 我々は、ヘイトスピーチの3つのサブタスクを解決するために、マルチタスクとマルチ言語アプローチを用いる。
これらのサブタスクは、インド・ヨーロッパ語におけるヘイトスピーチと攻撃的コンテンツ(HASOC)の識別に関する2019年の共有タスクの一部だった。
異なる言語やタスクで容易に一般化できるモデルを得るために、異なる組み合わせのアプローチを利用することが可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Hate Speech has become a major content moderation issue for online social
media platforms. Given the volume and velocity of online content production, it
is impossible to manually moderate hate speech related content on any platform.
In this paper we utilize a multi-task and multi-lingual approach based on
recently proposed Transformer Neural Networks to solve three sub-tasks for hate
speech. These sub-tasks were part of the 2019 shared task on hate speech and
offensive content (HASOC) identification in Indo-European languages. We expand
on our submission to that competition by utilizing multi-task models which are
trained using three approaches, a) multi-task learning with separate task
heads, b) back-translation, and c) multi-lingual training. Finally, we
investigate the performance of various models and identify instances where the
Transformer based models perform differently and better. We show that it is
possible to to utilize different combined approaches to obtain models that can
generalize easily on different languages and tasks, while trading off slight
accuracy (in some cases) for a much reduced inference time compute cost. We
open source an updated version of our HASOC 2019 code with the new improvements
at https://github.com/socialmediaie/MTML_HateSpeech.
- Abstract(参考訳): ヘイトスピーチは、オンラインソーシャルメディアプラットフォームの主要なコンテンツモデレーション問題となっています。
オンラインコンテンツ制作の量と速度を考えると、どのプラットフォーム上でもヘイトスピーチ関連のコンテンツを手動で調整することは不可能です。
本稿では,最近提案されたTransformer Neural Networksに基づくマルチタスクと多言語アプローチを用いて,ヘイトスピーチのための3つのサブタスクを解決する。
これらのサブタスクは、2019年のヘイトスピーチとアタックコンテンツ(HASOC)識別に関する共有タスクの一部でした。
我々は,3つのアプローチを用いて学習したマルチタスクモデル,a)タスクの異なるマルチタスク学習,b)バックトランスレーション,c)多言語学習を活用することで,その競争への提案を拡大する。
最後に,様々なモデルの性能を調査し,トランスフォーマティブモデルの性能が異なるインスタンスを識別する。
様々な言語やタスクで容易に一般化できるモデルを得るための異なる組み合わせアプローチを活用でき、また推論時間計算コストを大幅に削減するためにわずかな精度(場合によっては)をトレードオフできることを示した。
HASOC 2019コードの更新版を、https://github.com/socialmediaie/MTML_HateSpeech.comで公開しました。
関連論文リスト
- A Unified Multi-Task Learning Architecture for Hate Detection Leveraging User-Based Information [23.017068553977982]
ヘイトスピーチ、攻撃的言語、攻撃性、人種差別、性差別、その他の虐待的言語は、ソーシャルメディアでよく見られる現象である。
ヘイトコンテンツを大規模にフィルタリングする人工知能(AI)ベースの介入が必要である。
本稿では,ユーザ内およびユーザ間情報を活用することで,英語のヘイトスピーチ識別を改善するユニークなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:37:11Z) - Hierarchical Sentiment Analysis Framework for Hate Speech Detection: Implementing Binary and Multiclass Classification Strategy [0.0]
本稿では,英語におけるヘイトスピーチを検出するために,共有感情表現と統合された新しいマルチタスクモデルを提案する。
我々は、感情分析とトランスフォーマーに基づく訓練モデルを利用することで、複数のデータセット間でのヘイトスピーチの検出を大幅に改善できると結論付けた。
論文 参考訳(メタデータ) (2024-11-03T04:11:33Z) - MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models [19.719401865551745]
音声認識,音声合成,および2つの音声分類タスクをサポートするマルチタスク音声モデルであるPolySpeechを提案する。
PolySpeechは、シングルタスクモデルと比較して、さまざまなタスク間の競争力を示している。
論文 参考訳(メタデータ) (2024-06-12T01:35:46Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。