論文の概要: Hate Speech Detection with Generalizable Target-aware Fairness
- arxiv url: http://arxiv.org/abs/2406.00046v2
- Date: Tue, 11 Jun 2024 13:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:33:54.111908
- Title: Hate Speech Detection with Generalizable Target-aware Fairness
- Title(参考訳): 一般化可能な目標認識フェアネスによるヘイトスピーチ検出
- Authors: Tong Chen, Danny Wang, Xurong Liang, Marten Risius, Gianluca Demartini, Hongzhi Yin,
- Abstract要約: Generalizable target-aware Fairness (GetFair) は、推論中に多様で見えないターゲットを含む、各ポストを適切に分類する新しい方法である。
GetFairは、識別器を欺くために、対向パイプラインで一連のフィルタ関数を訓練する。
2つのHSDデータセットの実験では、サンプル外ターゲット上でのGetFairの利点が示されている。
- 参考スコア(独自算出の注目度): 31.019324291704628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To counter the side effect brought by the proliferation of social media platforms, hate speech detection (HSD) plays a vital role in halting the dissemination of toxic online posts at an early stage. However, given the ubiquitous topical communities on social media, a trained HSD classifier easily becomes biased towards specific targeted groups (e.g., female and black people), where a high rate of false positive/negative results can significantly impair public trust in the fairness of content moderation mechanisms, and eventually harm the diversity of online society. Although existing fairness-aware HSD methods can smooth out some discrepancies across targeted groups, they are mostly specific to a narrow selection of targets that are assumed to be known and fixed. This inevitably prevents those methods from generalizing to real-world use cases where new targeted groups constantly emerge over time. To tackle this defect, we propose Generalizable target-aware Fairness (GetFair), a new method for fairly classifying each post that contains diverse and even unseen targets during inference. To remove the HSD classifier's spurious dependence on target-related features, GetFair trains a series of filter functions in an adversarial pipeline, so as to deceive the discriminator that recovers the targeted group from filtered post embeddings. To maintain scalability and generalizability, we innovatively parameterize all filter functions via a hypernetwork that is regularized by the semantic affinity among targets. Taking a target's pretrained word embedding as input, the hypernetwork generates the weights used by each target-specific filter on-the-fly without storing dedicated filter parameters. Finally, comparative experiments on two HSD datasets have shown advantageous performance of GetFair on out-of-sample targets.
- Abstract(参考訳): ソーシャルメディアプラットフォームの普及による副作用に対抗するため、ヘイトスピーチ検出(HSD)は、早期に有害なオンライン投稿の拡散を阻止する重要な役割を担っている。
しかし、ソーシャルメディア上で広く普及している話題コミュニティを考えると、訓練されたHSD分類器は特定の対象グループ(例えば、女性や黒人)に偏りやすくなり、偽陽性/陰性の結果が、コンテンツモデレーション機構の公正性に対する公衆の信頼を著しく損なうことになり、最終的にはオンライン社会の多様性を損なうことになる。
既存のフェアネスを意識したHSD法は、対象とするグループ間でのいくつかの相違を緩和することができるが、それらは主に、既知の、固定されたと思われるターゲットの狭い選択に特化している。
これにより、新たなターゲットグループが常に時間とともに出現する現実世界のユースケースへの一般化が必然的に防止される。
この欠陥に対処するために、我々は、推論中に多様で見えざるターゲットを含む各ポストを適切に分類する新しい方法であるGeneralizable target-aware Fairness (GetFair)を提案する。
ターゲット関連の機能に対するHSD分類器の急激な依存を取り除くため、GetFairは、フィルタされたポスト埋め込みからターゲットグループを回復する識別器を欺くために、対向パイプラインで一連のフィルタ関数を訓練する。
拡張性と一般化性を維持するため、ターゲット間のセマンティック親和性によって正規化されるハイパーネットワークを用いて、全てのフィルタ関数を革新的にパラメータ化する。
ターゲットの事前訓練された単語を入力として埋め込み、ハイパーネットワークは専用のフィルタパラメータを格納することなく、各ターゲット固有のフィルタがオンザフライで使用する重みを生成する。
最後に、2つのHSDデータセットの比較実験では、サンプル外のターゲットでGetFairのパフォーマンスが有利であることが示されている。
関連論文リスト
- Fairly Accurate: Optimizing Accuracy Parity in Fair Target-Group Detection [10.104304963621946]
グループ精度パリティ(GAP)は、APに1対1のマッピングを持つ最初の微分可能損失関数である。
GAPは他の一般的な損失関数と比較してバイアスを緩和する。
論文 参考訳(メタデータ) (2024-07-16T17:23:41Z) - General Adversarial Defense Against Black-box Attacks via Pixel Level
and Feature Level Distribution Alignments [75.58342268895564]
我々は,DGN(Deep Generative Networks)と新たなトレーニング機構を併用して,分散ギャップを解消する。
トレーニングされたDGNは、画素値の変換により、敵サンプルとターゲットDNNのクリーンな分布を整列する。
我々の戦略はブラックボックス攻撃に対するその独特な効果と汎用性を実証している。
論文 参考訳(メタデータ) (2022-12-11T01:51:31Z) - Practical Approaches for Fair Learning with Multitype and Multivariate
Sensitive Attributes [70.6326967720747]
現実世界に展開された機械学習アルゴリズムが不公平さや意図しない社会的結果をもたらすことはないことを保証することが重要である。
本稿では,カーネルHilbert Spacesの相互共分散演算子上に構築されたフェアネス尺度であるFairCOCCOを紹介する。
実世界のデータセットにおける予測能力と公正性のバランスをとる上で、最先端技術に対する一貫した改善を実証的に示す。
論文 参考訳(メタデータ) (2022-11-11T11:28:46Z) - How Biased are Your Features?: Computing Fairness Influence Functions
with Global Sensitivity Analysis [38.482411134083236]
機械学習の公正性は、ハイテイクな意思決定タスクに広く適用されているため、大きな焦点をあてている。
本稿では,各特徴の偏りを個々の特徴と複数の特徴の交叉に分解するFairness Influence Function (FIF)を紹介する。
実験により、FairXplainerは個々の特徴と交叉特徴のFIFをキャプチャし、FIFに基づくバイアスのより優れた近似を提供し、FIFと公平な介入の相関を高く示し、また、分類器における公正肯定的/疑似的行動によるバイアスの変化を検出する。
論文 参考訳(メタデータ) (2022-06-01T04:02:16Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - PARL: Enhancing Diversity of Ensemble Networks to Resist Adversarial
Attacks via Pairwise Adversarially Robust Loss Function [13.417003144007156]
敵の攻撃は 転送可能性の原理に 依存する傾向があります
敵攻撃に対するアンサンブル法は、敵の例が複数の分類器を誤解させる可能性が低いことを示す。
最近のアンサンブル法は、より強い敵に弱いか、エンドツーエンドの評価が欠如していることが示されている。
論文 参考訳(メタデータ) (2021-12-09T14:26:13Z) - Beyond cross-entropy: learning highly separable feature distributions
for robust and accurate classification [22.806324361016863]
本稿では, 対角的ロバスト性を提供する, ディープロバストなマルチクラス分類器を訓練するための新しい手法を提案する。
提案手法に基づく潜在空間の正則化は,優れた分類精度が得られることを示す。
論文 参考訳(メタデータ) (2020-10-29T11:15:17Z) - CD-UAP: Class Discriminative Universal Adversarial Perturbation [83.60161052867534]
単一の普遍的対向摂動(UAP)は、予測されたクラスラベルのほとんどを変更するために、すべての自然画像に追加することができる。
本稿では,対象ネットワークを騙して選択したクラスのみを誤分類する単一摂動を生成する,新たなユニバーサルアタック手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T09:26:42Z) - Double Targeted Universal Adversarial Perturbations [83.60161052867534]
本稿では, インスタンス別画像依存摂動と汎用的普遍摂動のギャップを埋めるために, 二重目標普遍摂動(DT-UAP)を導入する。
提案したDTAアルゴリズムの幅広いデータセットに対する有効性を示すとともに,物理攻撃の可能性を示す。
論文 参考訳(メタデータ) (2020-10-07T09:08:51Z) - Mitigating Face Recognition Bias via Group Adaptive Classifier [53.15616844833305]
この研究は、全てのグループの顔がより平等に表現できる公正な顔表現を学ぶことを目的としている。
我々の研究は、競争精度を維持しながら、人口集団間での顔認識バイアスを軽減することができる。
論文 参考訳(メタデータ) (2020-06-13T06:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。