論文の概要: Towards Fairness Assessment of Dutch Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2506.12502v1
- Date: Sat, 14 Jun 2025 13:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.392442
- Title: Towards Fairness Assessment of Dutch Hate Speech Detection
- Title(参考訳): オランダにおけるヘイト音声検出の公平性評価に向けて
- Authors: Julie Bauer, Rishabh Kaushal, Thales Bertaglia, Adriana Iamnitchi,
- Abstract要約: オランダ語におけるヘイトスピーチ検出モデルの正当性を評価する。
分析の結果,ヘイトスピーチの検出,平均対実フェアネス,グループフェアネスの点で,モデルの性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous studies have proposed computational methods to detect hate speech online, yet most focus on the English language and emphasize model development. In this study, we evaluate the counterfactual fairness of hate speech detection models in the Dutch language, specifically examining the performance and fairness of transformer-based models. We make the following key contributions. First, we curate a list of Dutch Social Group Terms that reflect social context. Second, we generate counterfactual data for Dutch hate speech using LLMs and established strategies like Manual Group Substitution (MGS) and Sentence Log-Likelihood (SLL). Through qualitative evaluation, we highlight the challenges of generating realistic counterfactuals, particularly with Dutch grammar and contextual coherence. Third, we fine-tune baseline transformer-based models with counterfactual data and evaluate their performance in detecting hate speech. Fourth, we assess the fairness of these models using Counterfactual Token Fairness (CTF) and group fairness metrics, including equality of odds and demographic parity. Our analysis shows that models perform better in terms of hate speech detection, average counterfactual fairness and group fairness. This work addresses a significant gap in the literature on counterfactual fairness for hate speech detection in Dutch and provides practical insights and recommendations for improving both model performance and fairness.
- Abstract(参考訳): 多くの研究がヘイトスピーチをオンラインで検出するための計算手法を提案しているが、多くは英語に焦点を合わせ、モデル開発を強調している。
本研究では,オランダ語におけるヘイトスピーチ検出モデルの反実的公正性を評価し,特にトランスフォーマーモデルの性能と公平性について検討する。
私たちは以下の重要な貢献をします。
まず、社会的文脈を反映したオランダ社会グループ用語のリストを整理する。
第2に,LLMを用いたオランダのヘイトスピーチに対する反実データを生成し,手動グループ置換(MGS)やSLL(Sentence Log-Likelihood)などの戦略を確立した。
質的評価を通じて,特にオランダ語の文法と文脈的コヒーレンスを用いて,現実的な反事実を生成することの課題を強調した。
第3に,デファクトデータを用いたベースライントランスモデルを微調整し,ヘイトスピーチ検出の性能評価を行う。
第4に,これらのモデルのフェアネスを,対実的トークンフェアネス(CTF)とグループフェアネスの指標を用いて評価する。
分析の結果,ヘイトスピーチの検出,平均対実フェアネス,グループフェアネスの点で,モデルの性能が向上していることがわかった。
本研究は,オランダにおけるヘイトスピーチ検出における対実的公正性に関する文献の重大なギャップに対処し,モデル性能と公正性の両方を改善するための実践的な洞察と勧告を提供する。
関連論文リスト
- Dual-Class Prompt Generation: Enhancing Indonesian Gender-Based Hate Speech Detection through Data Augmentation [0.0]
インドネシアのソーシャルメディアにおけるジェンダーベースのヘイトスピーチの検出は、ラベル付きデータセットが限られているため、依然として困難である。
我々は,逆翻訳,単一クラスプロンプト生成,および提案する2クラスプロンプト生成を評価した。
両クラスからサンプルを組み込むことで,言語モデルがより多様だが代表的なサンプルを生成することが示唆された。
論文 参考訳(メタデータ) (2025-03-06T10:07:51Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection [9.166963162285064]
本研究では,ヘイトスピーチの同定における事前学習および微調整型大言語モデル(LLM)の有効性と適応性について検討した。
LLMは、事前トレーニングなしでも最先端技術に対して大きな優位性を提供します。
論文 参考訳(メタデータ) (2023-10-29T10:07:32Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Improving Counterfactual Generation for Fair Hate Speech Detection [26.79268141793483]
バイアス緩和アプローチは、社会集団トークン(SGTs)のような、データの繊細な特徴に対するモデルの依存を減らす
しかし、ヘイトスピーチ検出においては、モデル予測の等化は、対象とする社会グループ間での重要な違いを無視する可能性がある。
ここでは,SGTの変更によって生じる,反事実の公平性に頼り,反事実間の予測を等化する。
論文 参考訳(メタデータ) (2021-08-03T19:47:27Z) - Statistical Analysis of Perspective Scores on Hate Speech Detection [7.447951461558536]
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
論文 参考訳(メタデータ) (2021-06-22T17:17:35Z) - Fair Hate Speech Detection through Evaluation of Social Group
Counterfactuals [21.375422346539004]
教師付きモデルにおけるバイアス軽減のためのアプローチは、入力データの特定の敏感な特徴へのモデルの依存を減らすように設計されている。
ヘイトスピーチ検出の場合、必ずしも社会集団の効果を平等にすることが望ましいとは限らない。
言及された社会集団に対する対実的トークンフェアネスは、(a)実際の文と(b)反実的事例について、モデルが同一であるかどうかについて、モデルの予測を評価する。
提案手法は,実文と類似した意味を持つ反事実に対する頑健なモデル予測を保証する。
論文 参考訳(メタデータ) (2020-10-24T04:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。