論文の概要: A Modular Taxonomy for Hate Speech Definitions and Its Impact on Zero-Shot LLM Classification Performance
- arxiv url: http://arxiv.org/abs/2506.18576v1
- Date: Mon, 23 Jun 2025 12:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.976013
- Title: A Modular Taxonomy for Hate Speech Definitions and Its Impact on Zero-Shot LLM Classification Performance
- Title(参考訳): ヘイトスピーチ定義のためのモジュール分類法とそのゼロショットLLM分類性能に及ぼす影響
- Authors: Matteo Melis, Gabriella Lapesa, Dennis Assenmacher,
- Abstract要約: 本研究は, ヘイトスピーチを取り巻くあいまいさを, 文献から既存の定義を収集し, 分析することによって解決する。
実験レベルでは、3つのLDMの系統的ゼロショット評価に定義の収集を用いる。
異なる定義、すなわち、エンコードされた要素の観点で異なる特異性を持つ定義を選択することは、モデルの性能に影響を及ぼす。
- 参考スコア(独自算出の注目度): 9.675023307661975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting harmful content is a crucial task in the landscape of NLP applications for Social Good, with hate speech being one of its most dangerous forms. But what do we mean by hate speech, how can we define it, and how does prompting different definitions of hate speech affect model performance? The contribution of this work is twofold. At the theoretical level, we address the ambiguity surrounding hate speech by collecting and analyzing existing definitions from the literature. We organize these definitions into a taxonomy of 14 Conceptual Elements-building blocks that capture different aspects of hate speech definitions, such as references to the target of hate (individual or groups) or of the potential consequences of it. At the experimental level, we employ the collection of definitions in a systematic zero-shot evaluation of three LLMs, on three hate speech datasets representing different types of data (synthetic, human-in-the-loop, and real-world). We find that choosing different definitions, i.e., definitions with a different degree of specificity in terms of encoded elements, impacts model performance, but this effect is not consistent across all architectures.
- Abstract(参考訳): 有害なコンテンツを検出することは、NLPアプリケーションにおけるソーシャルグッドの現場における重要な課題であり、ヘイトスピーチは最も危険な形式の1つである。
しかし、ヘイトスピーチをどう定義すればいいのか、ヘイトスピーチの異なる定義がモデルのパフォーマンスにどのように影響を与えるのか?
この作品の貢献は2つある。
理論レベルでは、文献から既存の定義を収集し分析することにより、ヘイトスピーチを取り巻くあいまいさに対処する。
これらの定義は、ヘイトスピーチ定義の異なる側面、例えばヘイト(個人またはグループ)のターゲットへの参照、あるいはその潜在的影響を捉える14の概念的要素構築ブロックの分類にまとめる。
実験レベルでは、異なるタイプのデータ(合成、人間のループ、実世界)を表す3つのヘイトスピーチデータセットに基づいて、3つのLLMの体系的ゼロショット評価において、定義の収集を利用する。
異なる定義、すなわち、エンコードされた要素の観点で異なる特異性を持つ定義を選択することは、モデル性能に影響を与えるが、この効果は全てのアーキテクチャで一致しない。
関連論文リスト
- Hateful Person or Hateful Model? Investigating the Role of Personas in Hate Speech Detection by Large Language Models [47.110656690979695]
本稿では,ヘイトスピーチ分類におけるペルソナプロンプトの役割に関する総合的研究について紹介する。
人間による注釈調査では、MBTIの寸法がラベル付け行動に大きく影響していることが確認されている。
分析の結果,人間関係の相違,対人関係の相違,対人関係の偏り,対人関係の偏りなどが明らかとなった。
論文 参考訳(メタデータ) (2025-06-10T09:02:55Z) - Untangling Hate Speech Definitions: A Semantic Componential Analysis Across Cultures and Domains [12.964629786324032]
100以上の文化から493の定義を含むヘイトスピーチ定義の最初のデータセットを作成する。
分析の結果,対象とする文化を考慮せずに定義を相互に借用するドメインが多かった。
論文 参考訳(メタデータ) (2024-11-11T22:44:29Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Towards Legally Enforceable Hate Speech Detection for Public Forums [29.225955299645978]
本研究では,ヘイトスピーチ検出のための新たな視点と課題を紹介する。
法の専門家による11の可能な定義に違反したデータセットを使用します。
ヘイトスピーチの明確で法的に強制可能なインスタンスを特定することの難しさを踏まえ、専門家が作成したサンプルと自動マイニングされたチャレンジセットでデータセットを拡張する。
論文 参考訳(メタデータ) (2023-05-23T04:34:41Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Distance Based Image Classification: A solution to generative
classification's conundrum? [70.43638559782597]
差別的境界は、何によって意味論を定義するため、直観に反するものであると論じる。
本稿では,シェル理論の階層的生成過程によって意味的因子が許容される新しい生成モデルを提案する。
本モデルを用いて,意味的手がかりを保ちながら雑音の影響を抑える分類手法を開発した。
論文 参考訳(メタデータ) (2022-10-04T03:35:13Z) - Hate Speech Criteria: A Modular Approach to Task-Specific Hate Speech
Definitions [1.3274508420845537]
本稿では,法と社会科学の観点から展開したテキスト音声基準について述べる。
我々は、開発者が念頭に置いている目標と正確なタスクは、テキスト音声のスコープをどのように定義するかを決定するべきであると論じる。
論文 参考訳(メタデータ) (2022-06-30T17:50:16Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。