論文の概要: LLM-Based Multi-Task Bangla Hate Speech Detection: Type, Severity, and Target
- arxiv url: http://arxiv.org/abs/2510.01995v1
- Date: Thu, 02 Oct 2025 13:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.142394
- Title: LLM-Based Multi-Task Bangla Hate Speech Detection: Type, Severity, and Target
- Title(参考訳): LLMに基づくマルチタスク・バングラヘイト音声検出:タイプ,重大度,ターゲット
- Authors: Md Arid Hasan, Firoj Alam, Md Fahad Hossain, Usman Naseem, Syed Ishtiaque Ahmed,
- Abstract要約: マルチタスクのヘイトスピーチデータセットであるBanglaMultiHateを紹介した。
ゼロショットプロンプトとLoRAファインチューニングの下で,古典的ベースライン,モノリンガル事前学習モデル,LLMを比較した。
本実験は,低リソース環境下でのLLM適応性を評価し,一貫した傾向を示すものである。
- 参考スコア(独自算出の注目度): 27.786707138241493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Online social media platforms are central to everyday communication and information seeking. While these platforms serve positive purposes, they also provide fertile ground for the spread of hate speech, offensive language, and bullying content targeting individuals, organizations, and communities. Such content undermines safety, participation, and equity online. Reliable detection systems are therefore needed, especially for low-resource languages where moderation tools are limited. In Bangla, prior work has contributed resources and models, but most are single-task (e.g., binary hate/offense) with limited coverage of multi-facet signals (type, severity, target). We address these gaps by introducing the first multi-task Bangla hate-speech dataset, BanglaMultiHate, one of the largest manually annotated corpus to date. Building on this resource, we conduct a comprehensive, controlled comparison spanning classical baselines, monolingual pretrained models, and LLMs under zero-shot prompting and LoRA fine-tuning. Our experiments assess LLM adaptability in a low-resource setting and reveal a consistent trend: although LoRA-tuned LLMs are competitive with BanglaBERT, culturally and linguistically grounded pretraining remains critical for robust performance. Together, our dataset and findings establish a stronger benchmark for developing culturally aligned moderation tools in low-resource contexts. For reproducibility, we will release the dataset and all related scripts.
- Abstract(参考訳): オンラインソーシャルメディアプラットフォームは、日常的なコミュニケーションと情報検索の中心である。
これらのプラットフォームは肯定的な目的を果たす一方で、ヘイトスピーチ、攻撃的な言語、個人、組織、およびコミュニティをターゲットにしたいじめコンテンツの普及のための肥大した基盤を提供する。
このようなコンテンツは、オンラインの安全、参加、および株式を損なう。
そのため、特にモデレーションツールが限られている低リソース言語では、信頼性の高い検出システムが必要である。
バングラでは、以前の作業はリソースやモデルに貢献してきたが、ほとんどがシングルタスク(バイナリヘイト/オフセンスなど)で、マルチ顔信号(タイプ、重大度、ターゲット)を限定的にカバーしている。
このギャップに対処するために、最初のマルチタスクのヘイトスピーチデータセットであるBanglaMultiHateを導入しました。
このリソースに基づいて、ゼロショットプロンプトおよびLORA微調整の下で、古典的ベースライン、単言語事前学習モデル、LLMを対象とする包括的かつ制御された比較を行う。
LLMはBanglaBERTと競合するが、文化的・言語学的に基礎付けられた事前訓練は、堅牢な性能には不可欠である。
我々のデータセットと知見は、低リソース環境下で文化的に整合したモデレーションツールを開発するための、より強力なベンチマークを確立します。
再現性のために、データセットと関連するすべてのスクリプトをリリースします。
関連論文リスト
- BIDWESH: A Bangla Regional Based Hate Speech Detection Dataset [0.0]
本研究は,バングラヘイトスピーチデータセットであるBIDWESHを紹介する。
BD-SHSコーパスから9,183のインスタンスを3つの主要地域方言に翻訳し、注釈付けすることで構築された。
その結果得られたデータセットは、バングラでヘイトスピーチの検出を進めるための言語的にリッチでバランスの取れた、包括的なリソースを提供する。
論文 参考訳(メタデータ) (2025-07-22T02:53:48Z) - Rethinking Hate Speech Detection on Social Media: Can LLMs Replace Traditional Models? [3.611706857555358]
現代ソーシャルメディアにおけるヘイトスピーチの検出は、言語的多様性とオンライン談話の非公式な性質により、独特な課題を呈している。
これらの課題は、コードミキシング、翻訳、文化的ニュアンス表現を含む設定でさらに増幅される。
近年の大規模言語モデル (LLM) は, それらを上回るだけでなく, ヘイトスピーチ検出の環境をより広範に再定義している。
論文 参考訳(メタデータ) (2025-06-15T06:48:47Z) - LIBRA: Measuring Bias of Large Language Model from a Local Context [9.612845616659776]
大規模言語モデル(LLM)は、かなり高度な自然言語処理アプリケーションを持っている。
しかし、彼らの普及した利用は、特定の社会集団の実用性や害を減少させる固有のバイアスに関する懸念を提起する。
本研究は,これらの制約を,バイアス測定のためのローカル統合バイアス認識評価フレームワーク(LIBRA)を用いて解決する。
論文 参考訳(メタデータ) (2025-02-02T04:24:57Z) - NewsInterview: a Dataset and a Playground to Evaluate LLMs' Ground Gap via Informational Interviews [65.35458530702442]
我々はジャーナリストのインタビューに焦点をあて、コミュニケーションの基盤と豊富なデータに富んだドメインに焦点をあてる。
我々はNPRとCNNから4万人の2人によるインフォメーションインタビューのデータセットをキュレートする。
LLMは、人間のインタビュアーよりも、認識を使い、より高いレベルの質問に目を向ける可能性がはるかに低い。
論文 参考訳(メタデータ) (2024-11-21T01:37:38Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for Bangla [0.0]
本研究は,バングラ語用多言語LLMにおけるステレオタイプ的社会的バイアスを評価するためのデータセットであるBanStereoSetを提示する。
私たちのデータセットは、人種、職業、性別、年齢、職業の美しさ、地域、カースト、宗教の9つのカテゴリーにまたがる1,194の文で構成されています。
論文 参考訳(メタデータ) (2024-09-18T02:02:30Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。