論文の概要: Fair Hate Speech Detection through Evaluation of Social Group
Counterfactuals
- arxiv url: http://arxiv.org/abs/2010.12779v1
- Date: Sat, 24 Oct 2020 04:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:53:29.875880
- Title: Fair Hate Speech Detection through Evaluation of Social Group
Counterfactuals
- Title(参考訳): 社会的グループカウンターファクトの評価によるフェアヘイト音声検出
- Authors: Aida Mostafazadeh Davani, Ali Omrani, Brendan Kennedy, Mohammad Atari,
Xiang Ren, Morteza Dehghani
- Abstract要約: 教師付きモデルにおけるバイアス軽減のためのアプローチは、入力データの特定の敏感な特徴へのモデルの依存を減らすように設計されている。
ヘイトスピーチ検出の場合、必ずしも社会集団の効果を平等にすることが望ましいとは限らない。
言及された社会集団に対する対実的トークンフェアネスは、(a)実際の文と(b)反実的事例について、モデルが同一であるかどうかについて、モデルの予測を評価する。
提案手法は,実文と類似した意味を持つ反事実に対する頑健なモデル予測を保証する。
- 参考スコア(独自算出の注目度): 21.375422346539004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approaches for mitigating bias in supervised models are designed to reduce
models' dependence on specific sensitive features of the input data, e.g.,
mentioned social groups. However, in the case of hate speech detection, it is
not always desirable to equalize the effects of social groups because of their
essential role in distinguishing outgroup-derogatory hate, such that particular
types of hateful rhetoric carry the intended meaning only when contextualized
around certain social group tokens. Counterfactual token fairness for a
mentioned social group evaluates the model's predictions as to whether they are
the same for (a) the actual sentence and (b) a counterfactual instance, which
is generated by changing the mentioned social group in the sentence. Our
approach assures robust model predictions for counterfactuals that imply
similar meaning as the actual sentence. To quantify the similarity of a
sentence and its counterfactual, we compare their likelihood score calculated
by generative language models. By equalizing model behaviors on each sentence
and its counterfactuals, we mitigate bias in the proposed model while
preserving the overall classification performance.
- Abstract(参考訳): 教師付きモデルにおけるバイアス緩和のアプローチは、例えば言及された社会集団のような入力データの特定の敏感な特徴へのモデルの依存を減らすために設計されている。
しかし、ヘイトスピーチ検出の場合、特定のタイプのヘイトフルな修辞学が特定の社会集団トークンの周辺で文脈化される場合にのみ意図された意味を持つように、集団的嫌悪を区別する本質的な役割があるため、常に社会集団の効果を均等化することが望ましいとは限りません。
言及された社会集団に対する反実的トークンフェアネスは、モデルが同じかどうかの予測を評価する
(a)実際の文と
(b)当該文中の上記社会集団を変更することにより生じる反実例
提案手法は,実文と類似した意味を持つ反事実に対する頑健なモデル予測を保証する。
文の類似度とその反事実を定量化するために,生成言語モデルで計算した確率スコアを比較する。
文ごとのモデル挙動を等化することにより,全体の分類性能を保ちながら,提案モデルにおけるバイアスを軽減する。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in
Generative Language Models [8.211129045180636]
我々は、生成言語モデルにおいて、シュティグマを通して、社会的偏見の増幅を捉えるためのベンチマークを導入する。
私たちのベンチマークであるSocialStigmaQAには、ソーシャルバイアスとモデル堅牢性の両方をテストするために慎重に構築された、さまざまなプロンプトスタイルの約10Kプロンプトが含まれています。
社会的に偏りのあるアウトプットの割合は、様々なデコード戦略やスタイルにまたがって45%から59%の範囲であることがわかった。
論文 参考訳(メタデータ) (2023-12-12T18:27:44Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Logic Against Bias: Textual Entailment Mitigates Stereotypical Sentence
Reasoning [8.990338162517086]
一般的な文表現モデルに存在している異なるコミュニティに関するいくつかのステレオタイプについて述べる。
テキスト類似性に基づく強い事前学習モデルとテキスト共用学習を比較することで、テキスト共用による明示的な論理学習はバイアスを著しく減らすことができると結論付けている。
論文 参考訳(メタデータ) (2023-03-10T02:52:13Z) - Estimating Structural Disparities for Face Models [54.062512989859265]
機械学習では、異なるサブ人口間でのモデルの性能や結果の差を測定することで、しばしば異質度の測定が定義される。
本研究では、人間の顔に訓練されたコンピュータビジョンモデルや、顔属性予測や影響推定などのタスクについて、そのような分析を行う。
論文 参考訳(メタデータ) (2022-04-13T05:30:53Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Improving Counterfactual Generation for Fair Hate Speech Detection [26.79268141793483]
バイアス緩和アプローチは、社会集団トークン(SGTs)のような、データの繊細な特徴に対するモデルの依存を減らす
しかし、ヘイトスピーチ検出においては、モデル予測の等化は、対象とする社会グループ間での重要な違いを無視する可能性がある。
ここでは,SGTの変更によって生じる,反事実の公平性に頼り,反事実間の予測を等化する。
論文 参考訳(メタデータ) (2021-08-03T19:47:27Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。