論文の概要: Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A
Battle of LSTM and Transformers
- arxiv url: http://arxiv.org/abs/2312.05671v1
- Date: Sat, 9 Dec 2023 20:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:23:38.696712
- Title: Hate Speech and Offensive Content Detection in Indo-Aryan Languages: A
Battle of LSTM and Transformers
- Title(参考訳): インド・アーリア語におけるヘイトスピーチと攻撃的コンテンツ検出:LSTMとトランスフォーマーの戦い
- Authors: Nikhil Narayan, Mrutyunjay Biswal, Pramod Goyal, Abhranta Panigrahi
- Abstract要約: 我々はベンガル語、アサメセ語、ボド語、シンハラ語、グジャラート語の5つの異なる言語でヘイトスピーチの分類を比較した。
Bert Base Multilingual Casedは、ベンガル語で0.67027得点、アサメ語で0.70525得点を達成した。
シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media platforms serve as accessible outlets for individuals to express
their thoughts and experiences, resulting in an influx of user-generated data
spanning all age groups. While these platforms enable free expression, they
also present significant challenges, including the proliferation of hate speech
and offensive content. Such objectionable language disrupts objective discourse
and can lead to radicalization of debates, ultimately threatening democratic
values. Consequently, organizations have taken steps to monitor and curb
abusive behavior, necessitating automated methods for identifying suspicious
posts. This paper contributes to Hate Speech and Offensive Content
Identification in English and Indo-Aryan Languages (HASOC) 2023 shared tasks
track. We, team Z-AGI Labs, conduct a comprehensive comparative analysis of
hate speech classification across five distinct languages: Bengali, Assamese,
Bodo, Sinhala, and Gujarati. Our study encompasses a wide range of pre-trained
models, including Bert variants, XLM-R, and LSTM models, to assess their
performance in identifying hate speech across these languages. Results reveal
intriguing variations in model performance. Notably, Bert Base Multilingual
Cased emerges as a strong performer across languages, achieving an F1 score of
0.67027 for Bengali and 0.70525 for Assamese. At the same time, it
significantly outperforms other models with an impressive F1 score of 0.83009
for Bodo. In Sinhala, XLM-R stands out with an F1 score of 0.83493, whereas for
Gujarati, a custom LSTM-based model outshined with an F1 score of 0.76601. This
study offers valuable insights into the suitability of various pre-trained
models for hate speech detection in multilingual settings. By considering the
nuances of each, our research contributes to an informed model selection for
building robust hate speech detection systems.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、個人が自分の考えや経験を表現するためのアクセス可能なアウトレットとして機能し、結果としてすべての年齢層にまたがるユーザー生成データが流入する。
これらのプラットフォームは自由な表現を可能にする一方で、ヘイトスピーチや攻撃的なコンテンツの拡散など、重要な課題も提示する。
このような反対的な言語は客観的な言論を妨害し、議論の過激化を招き、最終的には民主的価値を脅かす。
その結果、組織は虐待行為を監視し、抑制するための措置を講じ、疑わしい投稿を識別するための自動化方法を必要としている。
本稿では,英語とインド・アーリア語におけるHate Speech and Offensive Content Identification in English and Indo-Aryan Languages (HASOC) 2023 Share Task Trackに貢献する。
z-agi labsはベンガル語、アッサム語、ボド語、シンハラ語、グジャラティ語という5つの異なる言語でヘイトスピーチの分類を総合的に比較分析している。
本研究は,ベルト変種,XLM-R,LSTMモデルなど,幅広い事前学習モデルを対象として,これらの言語におけるヘイトスピーチの識別性能を評価する。
その結果,モデル性能の興味深い変化が明らかになった。
特に、bert base multilingual cased は言語間で強力な演奏者として現れ、ベンガル語では0.67027、アッサム語では 0.70525 というf1スコアを達成している。
同時に、ボドのF1スコアは0.83009で他のモデルよりも大幅に優れています。
シンハラではXLM-RはF1スコア0.83493で際立っているが、グジャラティではF1スコア0.76601で照らされたカスタムLSTMベースのモデルである。
本研究は,多言語環境におけるヘイトスピーチ検出のための各種事前学習モデルの適合性に関する貴重な知見を提供する。
本研究は,それぞれのニュアンスを考慮し,ロバストなヘイトスピーチ検出システムを構築するためのインフォームドモデル選択に寄与する。
関連論文リスト
- HateTinyLLM : Hate Speech Detection Using Tiny Large Language Models [0.0]
ヘイトスピーチ(Hate speech)は、個人やグループに対する軽蔑的または差別的な言語をターゲットにした、言語、書面、行動的なコミュニケーションを包含する。
HateTinyLLMは、効率的なヘイトスピーチ検出のための微調整デコーダのみの小さな大規模言語モデル(tinyLLM)に基づく、新しいフレームワークである。
論文 参考訳(メタデータ) (2024-04-26T05:29:35Z) - Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages [0.6526824510982802]
この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:09Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Exploring Transformer Based Models to Identify Hate Speech and Offensive
Content in English and Indo-Aryan Languages [0.0]
本研究では,英語とインド・アーリア語におけるヘイトスピーチと攻撃的コンテンツの検出を目的とした,トランスフォーマーに基づく機械学習モデルについて検討する。
我々のモデルは、Code-Mixed Data set (Macro F1: 0.7107), Hindi two-class classification (Macro F1: 0.7797), English four-class category (Macro F1: 0.8006), and 12th in English two-class category (Macro F1: 0.6447)において2位となった。
論文 参考訳(メタデータ) (2021-11-27T19:26:14Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。