論文の概要: Rethinking Hate Speech Detection on Social Media: Can LLMs Replace Traditional Models?
- arxiv url: http://arxiv.org/abs/2506.12744v1
- Date: Sun, 15 Jun 2025 06:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.797159
- Title: Rethinking Hate Speech Detection on Social Media: Can LLMs Replace Traditional Models?
- Title(参考訳): ソーシャルメディアにおけるヘイトスピーチ検出の再考:LLMは従来のモデルを置き換えることができるか?
- Authors: Daman Deep Singh, Ramanuj Bhattacharjee, Abhijnan Chakraborty,
- Abstract要約: 現代ソーシャルメディアにおけるヘイトスピーチの検出は、言語的多様性とオンライン談話の非公式な性質により、独特な課題を呈している。
これらの課題は、コードミキシング、翻訳、文化的ニュアンス表現を含む設定でさらに増幅される。
近年の大規模言語モデル (LLM) は, それらを上回るだけでなく, ヘイトスピーチ検出の環境をより広範に再定義している。
- 参考スコア(独自算出の注目度): 3.611706857555358
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech detection across contemporary social media presents unique challenges due to linguistic diversity and the informal nature of online discourse. These challenges are further amplified in settings involving code-mixing, transliteration, and culturally nuanced expressions. While fine-tuned transformer models, such as BERT, have become standard for this task, we argue that recent large language models (LLMs) not only surpass them but also redefine the landscape of hate speech detection more broadly. To support this claim, we introduce IndoHateMix, a diverse, high-quality dataset capturing Hindi-English code-mixing and transliteration in the Indian context, providing a realistic benchmark to evaluate model robustness in complex multilingual scenarios where existing NLP methods often struggle. Our extensive experiments show that cutting-edge LLMs (such as LLaMA-3.1) consistently outperform task-specific BERT-based models, even when fine-tuned on significantly less data. With their superior generalization and adaptability, LLMs offer a transformative approach to mitigating online hate in diverse environments. This raises the question of whether future works should prioritize developing specialized models or focus on curating richer and more varied datasets to further enhance the effectiveness of LLMs.
- Abstract(参考訳): 現代ソーシャルメディアにおけるヘイトスピーチの検出は、言語的多様性とオンライン談話の非公式な性質により、独特な課題を呈している。
これらの課題は、コードミキシング、翻訳、文化的ニュアンス表現を含む設定でさらに増幅される。
BERTのような微調整型トランスフォーマーモデルがこのタスクの標準となっているが、近年の大規模言語モデル(LLM)はそれらを上回るだけでなく、ヘイトスピーチ検出の環境をより広く再定義していると論じている。
IndoHateMixはインドの文脈でヒンディー語のコードミキシングと音訳をキャプチャする多種多様な高品質データセットであり、既存のNLPメソッドがしばしば苦労する複雑な多言語シナリオにおいて、モデルロバスト性を評価するためのリアルなベンチマークを提供する。
LLaMA-3.1 のような最先端の LLM は、非常に少ないデータで微調整しても、タスク固有の BERT ベースのモデルより一貫して優れていた。
より優れた一般化と適応性により、LLMは多様な環境におけるオンラインヘイトを緩和するための変革的なアプローチを提供する。
このことは、将来の作業が特別なモデルの開発を優先するか、よりリッチで多様なデータセットをキュレートしてLLMの有効性をさらに高めることに注力すべきかという疑問を提起する。
関連論文リスト
- Extreme Speech Classification in the Era of LLMs: Exploring Open-Source and Proprietary Models [0.30693357740321775]
ChatGPTはLarge Language Models (LLMs)の潜在的な応用に世界的な注目を集めている。
我々は、Maronikolakis et al. (2022) の極端な音声データセットのインドのサブセットを活用し、LLMを用いた効果的な分類フレームワークを開発する。
我々は,オープンソースLlamaモデルをオープンソースOpenAIモデルと比較し,事前学習したLLMは適度な有効性を示すが,ドメイン固有データによる微調整は性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-02-21T02:31:05Z) - Improving Linguistic Diversity of Large Language Models with Possibility Exploration Fine-Tuning [23.456302461693053]
PEFT(Possibility Exploration Fine-Tuning)は、大規模言語モデル(LLM)のテキストの多様性を高めるためのタスクに依存しないフレームワークである。
PEFT は LLM 出力の多様性を著しく向上させる。
また、対話システムにおける人口統計バイアスを顕著に低減することができる。
論文 参考訳(メタデータ) (2024-12-04T14:23:16Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Benchmarking Large Language Model Capabilities for Conditional
Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。
PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:59:40Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。