論文の概要: Exploring Boundaries and Intensities in Offensive and Hate Speech: Unveiling the Complex Spectrum of Social Media Discourse
- arxiv url: http://arxiv.org/abs/2404.12042v1
- Date: Thu, 18 Apr 2024 09:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:41:30.617090
- Title: Exploring Boundaries and Intensities in Offensive and Hate Speech: Unveiling the Complex Spectrum of Social Media Discourse
- Title(参考訳): 攻撃的・ヘイトスピーチにおける境界と強度の探索 : ソーシャルメディア談話の複雑なスペクトルを明らかにする
- Authors: Abinew Ali Ayele, Esubalew Alemneh Jalew, Adem Chanie Ali, Seid Muhie Yimam, Chris Biemann,
- Abstract要約: 本稿では,3つのタスクに対して8,258のツイートをアノテートしたAmharicのベンチマークデータセットを提案する。
私たちの研究は、ほとんどのツイートが攻撃的でない、憎悪の度合いの低いレベルに属することを強調しています。
民族的および政治的憎悪の対象の出現は、我々のデータセットに顕著に重複しており、エチオピアの社会政治の景観における複雑な関係を強調している。
- 参考スコア(独自算出の注目度): 16.99659597567309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalence of digital media and evolving sociopolitical dynamics have significantly amplified the dissemination of hateful content. Existing studies mainly focus on classifying texts into binary categories, often overlooking the continuous spectrum of offensiveness and hatefulness inherent in the text. In this research, we present an extensive benchmark dataset for Amharic, comprising 8,258 tweets annotated for three distinct tasks: category classification, identification of hate targets, and rating offensiveness and hatefulness intensities. Our study highlights that a considerable majority of tweets belong to the less offensive and less hate intensity levels, underscoring the need for early interventions by stakeholders. The prevalence of ethnic and political hatred targets, with significant overlaps in our dataset, emphasizes the complex relationships within Ethiopia's sociopolitical landscape. We build classification and regression models and investigate the efficacy of models in handling these tasks. Our results reveal that hate and offensive speech can not be addressed by a simplistic binary classification, instead manifesting as variables across a continuous range of values. The Afro-XLMR-large model exhibits the best performances achieving F1-scores of 75.30%, 70.59%, and 29.42% for the category, target, and regression tasks, respectively. The 80.22% correlation coefficient of the Afro-XLMR-large model indicates strong alignments.
- Abstract(参考訳): デジタルメディアの普及と社会政治学の進化は、ヘイトフルコンテンツの拡散を著しく増幅している。
現存する研究は主にテキストを二進分類に分類することに焦点を当てており、しばしばテキストに固有の攻撃性と憎悪の連続的なスペクトルを見下ろしている。
本研究では、カテゴリー分類、ヘイトターゲットの識別、評価攻撃性、ヘイトフルネス強度の3つのタスクに注釈付けされた8,258のツイートを含む、アムハラ語に対する広範なベンチマークデータセットを提案する。
私たちの研究は、ツイートの大多数が攻撃的で憎悪の度合いの低いレベルに属しており、利害関係者による早期介入の必要性が強調されていることを強調しています。
民族的および政治的憎悪の対象の出現は、我々のデータセットに顕著に重複しており、エチオピアの社会政治の景観における複雑な関係を強調している。
分類と回帰モデルを構築し、これらのタスクを扱うモデルの有効性について検討する。
以上の結果から,憎しみと不快な言葉は単純二項分類では対処できず,連続的な値範囲の変数として表されることが明らかとなった。
Afro-XLMR-largeモデルはそれぞれ75.30%、70.59%、29.42%のF1スコアを達成している。
Afro-XLMR-largeモデルの80.22%の相関係数は強いアライメントを示す。
関連論文リスト
- A Target-Aware Analysis of Data Augmentation for Hate Speech Detection [3.858155067958448]
ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。
本稿では,既存のデータを生成言語モデルで拡張し,ターゲットの不均衡を低減する可能性を検討する。
起源、宗教、障害などのヘイトカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインが存在しない場合、10%以上のF1が向上する。
論文 参考訳(メタデータ) (2024-10-10T15:46:27Z) - Causal Micro-Narratives [62.47217054314046]
テキストから因果マイクロナラティブを分類する新しい手法を提案する。
これらの物語は、対象対象の因果関係と/または効果の文レベルの説明である。
論文 参考訳(メタデータ) (2024-10-07T17:55:10Z) - IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language [11.463652750122398]
IndoToxic2024はインドネシアのヘイトスピーチおよび毒性分類データセットである。
19の個人によって注釈付けされた43,692のエントリを補完するデータセットは、脆弱なグループをターゲットにしたテキストに焦点を当てている。
我々は、7つの二項分類タスクのベースラインを確立し、憎悪音声分類のために細調整されたBERTモデルを用いてマクロF1スコア0.78を達成する。
論文 参考訳(メタデータ) (2024-06-27T17:26:38Z) - HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model
for online comments [2.162419921663162]
ソーシャルメディア投稿において,Hate Context Detection と Hate Intensity Reduction のための新しいエンドツーエンドモデル HCDIR を提案する。
我々は、ヘイトフルコメントを検出するために、いくつかの事前訓練された言語モデルを微調整し、最も優れたヘイトフルコメント検出モデルを確認した。
論文 参考訳(メタデータ) (2023-12-20T17:05:46Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked
Emotions, Cross-Cultural Humour, and Personalisation [69.13075715686622]
MuSe 2023は、現代の3つの異なるマルチモーダル感情と感情分析の問題に対処する共有タスクの集合である。
MuSe 2023は、さまざまな研究コミュニティから幅広いオーディエンスを集めようとしている。
論文 参考訳(メタデータ) (2023-05-05T08:53:57Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - Improved two-stage hate speech classification for twitter based on Deep
Neural Networks [0.0]
ヘイトスピーチ(Hate speech)は、虐待的な言葉の使用を含む、オンラインハラスメントの一種である。
この研究で提案するモデルは、LSTMニューラルネットワークアーキテクチャに基づく既存のアプローチの拡張である。
本研究は,16kツイートの公開コーパスで評価された2段階目の提案手法の性能比較を含む。
論文 参考訳(メタデータ) (2022-06-08T20:57:41Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。