論文の概要: BANTH: A Multi-label Hate Speech Detection Dataset for Transliterated Bangla
- arxiv url: http://arxiv.org/abs/2410.13281v2
- Date: Fri, 18 Oct 2024 09:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 10:25:37.611906
- Title: BANTH: A Multi-label Hate Speech Detection Dataset for Transliterated Bangla
- Title(参考訳): BANTH: 翻訳バングラのマルチラベルヘイト音声検出データセット
- Authors: Fabiha Haider, Fariha Tanjim Shifat, Md Farhan Ishmam, Deeparghya Dutta Barua, Md Sakib Ul Rahman Sourove, Md Fahim, Md Farhad Alam,
- Abstract要約: 我々は,37.3kサンプルからなるバングラヘイト音声データセットであるBanTHを紹介する。
サンプルはYouTubeコメントからソースされ、各インスタンスに1つ以上のターゲットグループをラベル付けする。
実験により、さらに事前訓練されたエンコーダが、BanTHデータセット上で最先端のパフォーマンスを実現していることが明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The proliferation of transliterated texts in digital spaces has emphasized the need for detecting and classifying hate speech in languages beyond English, particularly in low-resource languages. As online discourse can perpetuate discrimination based on target groups, e.g. gender, religion, and origin, multi-label classification of hateful content can help in comprehending hate motivation and enhance content moderation. While previous efforts have focused on monolingual or binary hate classification tasks, no work has yet addressed the challenge of multi-label hate speech classification in transliterated Bangla. We introduce BanTH, the first multi-label transliterated Bangla hate speech dataset comprising 37.3k samples. The samples are sourced from YouTube comments, where each instance is labeled with one or more target groups, reflecting the regional demographic. We establish novel transformer encoder-based baselines by further pre-training on transliterated Bangla corpus. We also propose a novel translation-based LLM prompting strategy for transliterated text. Experiments reveal that our further pre-trained encoders are achieving state-of-the-art performance on the BanTH dataset, while our translation-based prompting outperforms other strategies in the zero-shot setting. The introduction of BanTH not only fills a critical gap in hate speech research for Bangla but also sets the stage for future exploration into code-mixed and multi-label classification challenges in underrepresented languages.
- Abstract(参考訳): デジタル空間における翻訳テキストの拡散は、英語以外の言語、特に低リソース言語におけるヘイトスピーチの検出と分類の必要性を強調している。
オンラインの言論は、ターゲットグループ、例えば性別、宗教、起源に基づく差別を永続させることができるため、ヘイトフルコンテンツの多ラベル分類は、ヘイトフルコンテンツのモチベーションを理解し、コンテンツのモデレーションを高めるのに役立つ。
これまではモノリンガルなヘイト分類やバイナリなヘイト分類に力を入れてきたが、翻訳されたバングラ語におけるマルチラベルヘイト音声分類の課題にはまだ対処する研究は残っていない。
我々は,37.3kサンプルからなるバングラヘイト音声データセットであるBanTHを紹介する。
サンプルはYouTubeのコメントから得られたもので、各インスタンスに1つ以上のターゲットグループをラベル付けして、地域人口統計を反映している。
トランスリテラル化Banglaコーパスの事前学習により,新しいトランスフォーマーエンコーダベースラインを構築した。
また,翻訳文の書き起こし戦略を新たに提案する。
実験によると、我々の事前学習エンコーダは、BanTHデータセット上で最先端のパフォーマンスを達成する一方、翻訳ベースのプロンプトはゼロショット設定で他の戦略より優れています。
BanTHの導入は、バングラのヘイトスピーチ研究における重要なギャップを埋めるだけでなく、コードミックスと多ラベルの分類課題を未表現言語で探究するためのステージも設定している。
関連論文リスト
- CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Leveraging Transformers for Hate Speech Detection in Conversational
Code-Mixed Tweets [36.29939722039909]
本稿では,HASOC 2021サブタスク2のためのMIDAS-IIITDチームによって提案されたシステムについて述べる。
これは、Hindi- Englishのコードミキシングされた会話からヘイトスピーチを検出することに焦点を当てた最初の共有タスクの1つである。
Indic-BERT,XLM-RoBERTa,Multilingual BERTのハード投票アンサンブルがマクロF1スコア0.7253を達成した。
論文 参考訳(メタデータ) (2021-12-18T19:27:33Z) - HS-BAN: A Benchmark Dataset of Social Media Comments for Hate Speech
Detection in Bangla [2.055204980188575]
本稿では,5万以上のラベル付きコメントからなる2進級ヘイトスピーチデータセットであるHS-BANを提案する。
本稿では,ヘイトスピーチ検出のためのベンチマークシステムを開発するために,従来の言語機能とニューラルネットワークに基づく手法について検討する。
我々のベンチマークでは、FastTextの非公式な単語埋め込みの上にBi-LSTMモデルがあり、86.78%のF1スコアを達成した。
論文 参考訳(メタデータ) (2021-12-03T13:35:18Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。