論文の概要: AlexU-AIC at Arabic Hate Speech 2022: Contrast to Classify
- arxiv url: http://arxiv.org/abs/2207.08557v1
- Date: Mon, 18 Jul 2022 12:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 14:34:42.395888
- Title: AlexU-AIC at Arabic Hate Speech 2022: Contrast to Classify
- Title(参考訳): アラビア語のヘイトスピーチ「AlexU-AIC」-2022年
- Authors: Ahmad Shapiro, Ayman Khalafallah, Marwan Torki
- Abstract要約: アラビア・ヘイトスピーチ2022共有タスクワークショップ(OSACT52022)に、関連するアラビア・Twitterデータセットを用いて提出する。
攻撃的なツイートに関しては、サブタスクBは、ツイートがヘイトスピーチであるか否かを検出することに焦点を当てている。
ヘイトスピーチのつぶやきに対して、サブタスクCは6つの異なるクラス間のきめ細かいタイプのヘイトスピーチを検出することに重点を置いている。
- 参考スコア(独自算出の注目度): 2.9220076568786326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online presence on social media platforms such as Facebook and Twitter has
become a daily habit for internet users. Despite the vast amount of services
the platforms offer for their users, users suffer from cyber-bullying, which
further leads to mental abuse and may escalate to cause physical harm to
individuals or targeted groups. In this paper, we present our submission to the
Arabic Hate Speech 2022 Shared Task Workshop (OSACT5 2022) using the associated
Arabic Twitter dataset. The shared task consists of 3 sub-tasks, sub-task A
focuses on detecting whether the tweet is offensive or not. Then, For offensive
Tweets, sub-task B focuses on detecting whether the tweet is hate speech or
not. Finally, For hate speech Tweets, sub-task C focuses on detecting the
fine-grained type of hate speech among six different classes. Transformer
models proved their efficiency in classification tasks, but with the problem of
over-fitting when fine-tuned on a small or an imbalanced dataset. We overcome
this limitation by investigating multiple training paradigms such as
Contrastive learning and Multi-task learning along with Classification
fine-tuning and an ensemble of our top 5 performers. Our proposed solution
achieved 0.841, 0.817, and 0.476 macro F1-average in sub-tasks A, B, and C
respectively.
- Abstract(参考訳): FacebookやTwitterなどのソーシャルメディアプラットフォームでのオンラインプレゼンスは、インターネットユーザーにとって日々の習慣になっている。
プラットフォームがユーザーに提供する膨大なサービスにもかかわらず、ユーザーはサイバーいじめに悩まされ、さらに精神的虐待を招き、個人や対象グループに身体的被害をもたらす可能性がある。
本稿では、アラビア・ヘイトスピーチ2022共有タスクワークショップ(OSACT5 2022)に、関連するアラビア・Twitterデータセットを用いて提出する。
共有タスクは3つのサブタスクで構成され、サブタスクAはツイートが攻撃的かどうかを検出することに焦点を当てる。
次に、攻撃的なツイートに対して、サブタスクBは、ツイートがヘイトスピーチであるか否かを検出することに焦点を当てる。
最後に、ヘイトスピーチツイートでは、サブタスクcは6つの異なるクラス間のヘイトスピーチのきめ細かいタイプを検出することに重点を置いている。
トランスフォーマーモデルは分類タスクにおいて効率を証明したが、小さなデータセットや不均衡なデータセットで微調整された場合、過度に適合する問題があった。
この制限を克服するために,コントラスト学習やマルチタスク学習といった複数の訓練パラダイム,分類微調整,トップ5パフォーマーのアンサンブルなどを検討した。
提案手法は,サブタスクA,B,Cにおいてそれぞれ0.841,0.817,0.476のマクロF1平均値を得た。
関連論文リスト
- ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Meta AI at Arabic Hate Speech 2022: MultiTask Learning with
Self-Correction for Hate Speech Classification [20.632017481940075]
アラビア・ファイングレード・ヘイト音声検出共有タスクに取り組む。
課題は,(1)攻撃的言語を含むか否か,(2)ヘイトスピーチとみなすか否かを予測し,(3)ファイングレード・ヘイトスピーチラベルを6つのカテゴリのうちの1つから予測することである。
最後の解決策は,マルチタスク学習と,ヘイトスピーチのサブタスクに対して82.7%の自己整合性補正手法を用いたモデルのアンサンブルである。
論文 参考訳(メタデータ) (2022-05-16T19:53:16Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - Overview of the HASOC track at FIRE 2020: Hate Speech and Offensive
Content Identification in Indo-European Languages [2.927129789938848]
HASOCトラックはヒンディー語、ドイツ語、英語向けのHate Speech Detectionアルゴリズムの開発と最適化を目的としている。
データセットはTwitterアーカイブから収集され、機械学習システムによって事前に分類される。
全体では40チーム252本が提出された。タスクAの最良の分類アルゴリズムは、それぞれ英語、ヒンディー語、ドイツ語で0.51本、0.53本、ドイツ語で0.52本である。
論文 参考訳(メタデータ) (2021-08-12T19:02:53Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Countering hate on social media: Large scale classification of hate and
counter speech [0.0]
憎しみに満ちたレトリックは、オンラインの議論をかき立て、極端な社会運動を育み、現実世界の暴力を引き起こす可能性がある。
潜在的な解決策は、市民が憎悪に満ちた会話を積極的に行い、市民の非分極的な言論を復活させようとする市民生成の対決演説である。
ここではドイツのユニークな状況を利用して、オンラインヘイトとカウンタースピーチの組織化に従事した。
我々は,様々な段落埋め込みと正規化ロジスティック回帰関数を組み合わさったアンサンブル学習アルゴリズムを用いて,これらの2つのグループから集めた何百万もの関連ツイートのコーパスにおいて,ヘイトとカウンタースピーチの両方を分類した。
論文 参考訳(メタデータ) (2020-06-02T23:12:52Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。