論文の概要: Uncovering Political Hate Speech During Indian Election Campaign: A New
Low-Resource Dataset and Baselines
- arxiv url: http://arxiv.org/abs/2306.14764v2
- Date: Tue, 27 Jun 2023 16:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 11:21:40.611989
- Title: Uncovering Political Hate Speech During Indian Election Campaign: A New
Low-Resource Dataset and Baselines
- Title(参考訳): インド大統領選挙中の政治的ヘイトスピーチ: 新たな低リソースデータセットとベースライン
- Authors: Farhan Ahmad Jafri, Mohammad Aman Siddiqui, Surendrabikram Thapa,
Kritesh Rauniyar, Usman Naseem, Imran Razzak
- Abstract要約: IEHateデータセットには、2021年11月1日から2022年3月9日までのインド議会選挙に関連する11,457件のヒンディー語ツイートが含まれている。
機械学習、ディープラーニング、トランスフォーマーベースのアルゴリズムを用いてデータセットをベンチマークする。
特に、アルゴリズムよりも人間評価のスコアが比較的高いことは、効果的なヘイトスピーチのモデレーションに人間と自動化の両方のアプローチを活用することの重要性を強調している。
- 参考スコア(独自算出の注目度): 3.3228144010758593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The detection of hate speech in political discourse is a critical issue, and
this becomes even more challenging in low-resource languages. To address this
issue, we introduce a new dataset named IEHate, which contains 11,457 manually
annotated Hindi tweets related to the Indian Assembly Election Campaign from
November 1, 2021, to March 9, 2022. We performed a detailed analysis of the
dataset, focusing on the prevalence of hate speech in political communication
and the different forms of hateful language used. Additionally, we benchmark
the dataset using a range of machine learning, deep learning, and
transformer-based algorithms. Our experiments reveal that the performance of
these models can be further improved, highlighting the need for more advanced
techniques for hate speech detection in low-resource languages. In particular,
the relatively higher score of human evaluation over algorithms emphasizes the
importance of utilizing both human and automated approaches for effective hate
speech moderation. Our IEHate dataset can serve as a valuable resource for
researchers and practitioners working on developing and evaluating hate speech
detection techniques in low-resource languages. Overall, our work underscores
the importance of addressing the challenges of identifying and mitigating hate
speech in political discourse, particularly in the context of low-resource
languages. The dataset and resources for this work are made available at
https://github.com/Farhan-jafri/Indian-Election.
- Abstract(参考訳): 政治的談話におけるヘイトスピーチの検出は重要な問題であり、低リソース言語ではさらに困難になる。
この問題に対処するために,2021年11月1日から2022年3月9日までのインド議会選挙キャンペーンに関連するヒンディー語ツイート11,457件を含むiehateという新しいデータセットを紹介する。
本研究では,政治コミュニケーションにおけるヘイトスピーチの頻度と,使用するヘイトフル言語の種類に着目し,データセットの詳細な分析を行った。
さらに,機械学習,ディープラーニング,トランスフォーマーベースのアルゴリズムを用いて,データセットのベンチマークを行う。
実験の結果,これらのモデルの性能はさらに向上し,低リソース言語におけるヘイトスピーチ検出のためのより高度な技術の必要性を浮き彫りにした。
特に、アルゴリズムに対する人間評価の相対的に高いスコアは、効果的なヘイトスピーチモデレーションのために人間と自動化の両方のアプローチを活用することの重要性を強調している。
私たちのiehateデータセットは、低リソース言語におけるヘイトスピーチ検出技術の開発と評価に取り組んでいる研究者や実践者にとって貴重なリソースとなり得る。
我々の研究は、政治談話におけるヘイトスピーチの特定と緩和の課題、特に低リソース言語における課題に対処することの重要性を強調している。
この作業のデータセットとリソースはhttps://github.com/Farhan-jafri/Indian-Election.comで公開されている。
関連論文リスト
- Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Hate Speech Detection in Limited Data Contexts using Synthetic Data
Generation [1.9506923346234724]
本稿では,限られたデータコンテキストにおいて,オンラインヘイトスピーチ検出のためのデータ不足の問題に対処するデータ拡張手法を提案する。
対象言語におけるヘイトスピーチデータの新しい例を合成する3つの方法を提案する。
以上の結果から, 合成データを用いたモデルでは, 対象領域で利用可能なサンプルに対してのみ学習したモデルが比較可能であり, 性能が良好である場合も見いだされた。
論文 参考訳(メタデータ) (2023-10-04T15:10:06Z) - LAHM : Large Annotated Dataset for Multi-Domain and Multilingual Hate
Speech Identification [2.048680519934008]
本稿では,英語,ヒンディー語,アラビア語,フランス語,ドイツ語,スペイン語の多言語ヘイトスピーチ分析データセットを提案する。
本論文は、これらの6言語において、これらの5つの広い領域において、様々な種類のヘイトスピーチを識別する問題に最初に対処するものである。
論文 参考訳(メタデータ) (2023-04-03T12:03:45Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。