論文の概要: Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering Dehumanizing Language
- arxiv url: http://arxiv.org/abs/2402.13818v2
- Date: Thu, 10 Jul 2025 11:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.09188
- Title: Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering Dehumanizing Language
- Title(参考訳): ヘイトスピーチを超えて:NLPの非人間化言語発見への挑戦と機会
- Authors: Hamidreza Saffari, Mohammadamin Shafiei, Hezhao Zhang, Lasana Harris, Nafise Sadat Moosavi,
- Abstract要約: 非人間化(De Humanization)、すなわち個人や集団に人的品質を否定することは、特に有害なヘイトスピーチである。
一般ヘイトスピーチの検出におけるNLPの進歩にもかかわらず、非人間化言語を特定するアプローチは限定的である。
我々は,非人間化検出のための4つの言語モデル(LLM)を体系的に評価した。
- 参考スコア(独自算出の注目度): 9.06965602117689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dehumanization, i.e., denying human qualities to individuals or groups, is a particularly harmful form of hate speech that can normalize violence against marginalized communities. Despite advances in NLP for detecting general hate speech, approaches to identifying dehumanizing language remain limited due to scarce annotated data and the subtle nature of such expressions. In this work, we systematically evaluate four state-of-the-art large language models (LLMs) - Claude, GPT, Mistral, and Qwen - for dehumanization detection. Our results show that only one model-Claude-achieves strong performance (over 80% F1) under an optimized configuration, while others, despite their capabilities, perform only moderately. Performance drops further when distinguishing dehumanization from related hate types such as derogation. We also identify systematic disparities across target groups: models tend to over-predict dehumanization for some identities (e.g., Gay men), while under-identifying it for others (e.g., Refugees). These findings motivate the need for systematic, group-level evaluation when applying pretrained language models to dehumanization detection tasks.
- Abstract(参考訳): 非人間化(De Humanization)、すなわち個人やグループに対する人的品質の否定は、特に有害なヘイトスピーチであり、辺境化社会に対する暴力を正常化することができる。
一般的なヘイトスピーチを検出するためのNLPの進歩にもかかわらず、注釈付きデータが少ないことと、そのような表現の微妙な性質のために、非人間化言語を特定するアプローチは限定的のままである。
本研究では,非人間化検出のための4つの言語モデル(Claude, GPT, Mistral, Qwen)を体系的に評価した。
以上の結果から,最適化された構成では,モデルClaude-achieveが80%以上の高い性能(80% F1)を持つのに対して,他のモデルでは,その性能は適度にしか機能しないことがわかった。
デロゲーションのような関連するヘイトタイプと非ヒト化を区別する場合、パフォーマンスはさらに低下する。
また,対象集団間の系統的格差も同定する。モデルでは,特定のアイデンティティ(例えば,ゲイマン)に対して非人間化を過度に予測し,他のグループ(例えば,難民)に対してそれを過度に識別する傾向がある。
これらの知見は、非人間化検出タスクに事前学習言語モデルを適用する際に、体系的なグループレベルの評価の必要性を動機付けている。
関連論文リスト
- Extreme Speech Classification in the Era of LLMs: Exploring Open-Source and Proprietary Models [0.30693357740321775]
ChatGPTはLarge Language Models (LLMs)の潜在的な応用に世界的な注目を集めている。
我々は、Maronikolakis et al. (2022) の極端な音声データセットのインドのサブセットを活用し、LLMを用いた効果的な分類フレームワークを開発する。
我々は,オープンソースLlamaモデルをオープンソースOpenAIモデルと比較し,事前学習したLLMは適度な有効性を示すが,ドメイン固有データによる微調整は性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-02-21T02:31:05Z) - A Target-Aware Analysis of Data Augmentation for Hate Speech Detection [3.858155067958448]
ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。
本稿では,既存のデータを生成言語モデルで拡張し,ターゲットの不均衡を低減する可能性を検討する。
起源、宗教、障害などのヘイトカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインが存在しない場合、10%以上のF1が向上する。
論文 参考訳(メタデータ) (2024-10-10T15:46:27Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model
for online comments [2.162419921663162]
ソーシャルメディア投稿において,Hate Context Detection と Hate Intensity Reduction のための新しいエンドツーエンドモデル HCDIR を提案する。
我々は、ヘイトフルコメントを検出するために、いくつかの事前訓練された言語モデルを微調整し、最も優れたヘイトフルコメント検出モデルを確認した。
論文 参考訳(メタデータ) (2023-12-20T17:05:46Z) - Developing Linguistic Patterns to Mitigate Inherent Human Bias in
Offensive Language Detection [1.6574413179773761]
本稿では,ラベル付けプロセスにおけるバイアスを低減するための言語データ拡張手法を提案する。
このアプローチは、複数の言語にわたる攻撃的な言語分類タスクを改善する可能性がある。
論文 参考訳(メタデータ) (2023-12-04T10:20:36Z) - Model-Agnostic Meta-Learning for Multilingual Hate Speech Detection [23.97444551607624]
ソーシャルメディアにおけるヘイトスピーチは増加傾向にあり、そのような有害なコンテンツを検出することが大きな牽引力となっている。
HateMAMLはモデルに依存しないメタ学習ベースのフレームワークで、低リソース言語でのヘイトスピーチ検出を効果的に行う。
大規模な実験は、8つの異なる低リソース言語にわたる5つのデータセットで実施されている。
論文 参考訳(メタデータ) (2023-03-04T22:28:29Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - A Framework for the Computational Linguistic Analysis of Dehumanization [52.735780962665814]
我々は1986年から2015年にかけてニューヨーク・タイムズでLGBTQの人々に関する議論を分析した。
LGBTQの人々の人為的な記述は、時間とともにますます増えています。
大規模に非人間化言語を分析する能力は、メディアバイアスを自動的に検出し、理解するだけでなく、オンラインで乱用する言語にも影響を及ぼす。
論文 参考訳(メタデータ) (2020-03-06T03:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。