論文の概要: Exploring Transformer Based Models to Identify Hate Speech and Offensive
Content in English and Indo-Aryan Languages
- arxiv url: http://arxiv.org/abs/2111.13974v1
- Date: Sat, 27 Nov 2021 19:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 16:28:09.484975
- Title: Exploring Transformer Based Models to Identify Hate Speech and Offensive
Content in English and Indo-Aryan Languages
- Title(参考訳): 英語とインド・アーリア語におけるヘイトスピーチと不快コンテンツの識別のためのトランスフォーマーモデルの検討
- Authors: Somnath Banerjee, Maulindu Sarkar, Nancy Agrawal, Punyajoy Saha,
Mithun Das
- Abstract要約: 本研究では,英語とインド・アーリア語におけるヘイトスピーチと攻撃的コンテンツの検出を目的とした,トランスフォーマーに基づく機械学習モデルについて検討する。
我々のモデルは、Code-Mixed Data set (Macro F1: 0.7107), Hindi two-class classification (Macro F1: 0.7797), English four-class category (Macro F1: 0.8006), and 12th in English two-class category (Macro F1: 0.6447)において2位となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech is considered to be one of the major issues currently plaguing
online social media. Repeated and repetitive exposure to hate speech has been
shown to create physiological effects on the target users. Thus, hate speech,
in all its forms, should be addressed on these platforms in order to maintain
good health. In this paper, we explored several Transformer based machine
learning models for the detection of hate speech and offensive content in
English and Indo-Aryan languages at FIRE 2021. We explore several models such
as mBERT, XLMR-large, XLMR-base by team name "Super Mario". Our models came 2nd
position in Code-Mixed Data set (Macro F1: 0.7107), 2nd position in Hindi
two-class classification(Macro F1: 0.7797), 4th in English four-class category
(Macro F1: 0.8006) and 12th in English two-class category (Macro F1: 0.6447).
- Abstract(参考訳): ヘイトスピーチは、現在オンラインソーシャルメディアで起きている主要な問題の一つと考えられている。
ヘイトスピーチへの繰り返しの露出は、ターゲットユーザーに対して生理学的な効果をもたらすことが示されている。
したがって、ヘイトスピーチは、健康を維持するために、あらゆる形でこれらのプラットフォームに対処すべきである。
本稿では,英語およびインド・アーリア語におけるヘイトスピーチと攻撃的コンテンツの検出のためのトランスフォーマーベースの機械学習モデルについて,fire 2021において検討した。
我々は,mBERT,XLMR-large,XLMR-baseなどのモデルをチーム名"Super Mario"で探索する。
2位はコード混合データセット(macro f1: 0.7107)、2位はヒンディー語の2級分類(macro f1: 0.7797)、4位は英語の4級分類(macro f1: 0.8006)、12位は英語の2級分類(macro f1: 0.6447)である。
関連論文リスト
- Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A
Battle of LSTM and Transformers [0.0]
我々はベンガル語、アサメセ語、ボド語、シンハラ語、グジャラート語の5つの異なる言語でヘイトスピーチの分類を比較した。
Bert Base Multilingual Casedは、ベンガル語で0.67027得点、アサメ語で0.70525得点を達成した。
シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。
論文 参考訳(メタデータ) (2023-12-09T20:24:00Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive
Content Identification in Indo-European Languages [2.927129789938848]
HASOCトラックはヒンディー語、ドイツ語、英語向けのHate Speech Detectionアルゴリズムの開発と最適化を目的としている。
データセットはTwitterアーカイブから収集され、機械学習システムによって事前に分類される。
全体では40チーム252本が提出された。タスクAの最良の分類アルゴリズムは、それぞれ英語、ヒンディー語、ドイツ語で0.51本、0.53本、ドイツ語で0.52本である。
論文 参考訳(メタデータ) (2021-08-12T19:02:53Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。