論文の概要: $\textit{Who Speaks Matters}$: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
- arxiv url: http://arxiv.org/abs/2410.20490v1
- Date: Sun, 27 Oct 2024 16:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:17.835190
- Title: $\textit{Who Speaks Matters}$: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
- Title(参考訳): $\textit{Who Speaks Matters}$: 話者の倫理がヘイト分類に与える影響の分析
- Authors: Ananya Malik, Kartik Sharma, Lynnette Hui Xian Ng, Shaily Bhatt,
- Abstract要約: 大規模言語モデル(LLM)は、ヘイトスピーチ検出を含むスケーラブルなコンテンツモデレーションに対して、有望な約束を提供する。
弱く、村落や方言に偏っていることが知られている。
そのためには、ヘイトスピーチ検出などの高度なタスクを批判的に精査する必要がある。
- 参考スコア(独自算出の注目度): 6.872334790676242
- License:
- Abstract: Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs, particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For the explicit markers, we inject a phrase that mentions the speaker's identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 4 popular LLMs and 5 ethnicities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ヘイトスピーチ検出を含むスケーラブルなコンテンツモデレーションに対して、有望な約束を提供する。
しかし、それらは脆く、辺境化したコミュニティや方言に偏っていることも知られている。
そのためには、ヘイトスピーチ検出などの高度なタスクを批判的に精査する必要がある。
本研究では,LLMを用いたヘイトスピーチ分類の堅牢性について検討する。
明示的なマーカーに対しては、話者のアイデンティティに言及したフレーズを注入する。
暗黙のマーカーに対しては、方言の特徴を注入する。
これらのマーカーの存在下でモデル出力がどれだけ頻繁に反転するかを分析することで、4つの人気のあるLCMと5つの民族の間で様々な脆さが明らかになる。
入力中の暗黙の方言マーカーの存在は、明示的なマーカーの存在以上のモデル出力を反転させる。
さらに、フリップの割合は民族によって異なる。
最後に、より大きなモデルはより堅牢であることに気付きます。
以上の結果から,ヘイトスピーチ検出などの高精細なタスクにLDMを配置する際の注意喚起の必要性が示唆された。
関連論文リスト
- Exploring Large Language Models for Hate Speech Detection in Rioplatense Spanish [0.08192907805418582]
ヘイトスピーチ検出は多くの言語変種、スラング、スラー、表現モダリティ、文化的ニュアンスを扱う。
本研究では,リオプラテンセ・スペイン語のヘイトスピーチ検出における大規模言語モデルの性能について,簡単な解析を行った。
論文 参考訳(メタデータ) (2024-10-16T02:32:12Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - Harnessing Artificial Intelligence to Combat Online Hate: Exploring the
Challenges and Opportunities of Large Language Models in Hate Speech
Detection [4.653571633477755]
大規模言語モデル(LLM)は、翻訳、要約、感情分析など、言語生成以外の多くの多様なアプリケーションで優れている。
このことは、憎しみや有害なスピーチを識別する領域において、問題や倫理的なジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-03-12T19:12:28Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Navigating the Grey Area: How Expressions of Uncertainty and
Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。
その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。
これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文 参考訳(メタデータ) (2023-02-26T23:46:29Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。