論文の概要: Towards Procedural Fairness: Uncovering Biases in How a Toxic Language
Classifier Uses Sentiment Information
- arxiv url: http://arxiv.org/abs/2210.10689v1
- Date: Wed, 19 Oct 2022 16:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:19:26.952434
- Title: Towards Procedural Fairness: Uncovering Biases in How a Toxic Language
Classifier Uses Sentiment Information
- Title(参考訳): 手続き的公正に向けて: 有害言語分類器が感性情報を利用する方法のバイアスを明らかにする
- Authors: Isar Nejadgholi, Esma Balk{\i}r, Kathleen C. Fraser, and Svetlana
Kiritchenko
- Abstract要約: この研究は、不公平なプロセスが不公平な結果をもたらす手続き的公正性を評価するための一歩である。
生成された知識は、トレーニングデータセットにおいてアイデンティティ用語以外の重要な概念が適切に表現されていることを保証するために、デバイアス技術(debiasing techniques)をガイドすることができる。
- 参考スコア(独自算出の注目度): 7.022948483613112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works on the fairness of toxic language classifiers compare the
output of models with different identity terms as input features but do not
consider the impact of other important concepts present in the context. Here,
besides identity terms, we take into account high-level latent features learned
by the classifier and investigate the interaction between these features and
identity terms. For a multi-class toxic language classifier, we leverage a
concept-based explanation framework to calculate the sensitivity of the model
to the concept of sentiment, which has been used before as a salient feature
for toxic language detection. Our results show that although for some classes,
the classifier has learned the sentiment information as expected, this
information is outweighed by the influence of identity terms as input features.
This work is a step towards evaluating procedural fairness, where unfair
processes lead to unfair outcomes. The produced knowledge can guide debiasing
techniques to ensure that important concepts besides identity terms are
well-represented in training datasets.
- Abstract(参考訳): 有毒言語分類器の公正性に関する以前の研究は、異なる同一項を持つモデルの出力を入力特徴として比較するが、文脈に存在する他の重要な概念の影響を考慮しない。
ここでは、恒等項の他に、分類器によって学習された高次潜在特徴を考慮し、これらの特徴と恒等項との相互作用について検討する。
マルチクラス有毒言語分類器では,従来の有毒言語検出の健全な特徴として用いられてきた感情概念に対するモデルの感度を計算するために,概念に基づく説明フレームワークを利用する。
以上の結果から, クラスによっては, 感情情報を期待通りに学習したクラスもあるが, この情報は, 入力特徴としてのアイデンティティ項の影響に勝っていることがわかった。
この研究は、不公平なプロセスが不公平な結果をもたらす手続き的公正性を評価するための一歩である。
生成された知識は、識別項以外の重要な概念がトレーニングデータセットでよく表現されていることを保証するために、デバイアステクニックを導くことができる。
関連論文リスト
- ImpScore: A Learnable Metric For Quantifying The Implicitness Level of Language [40.4052848203136]
インプシット言語は, 自然言語処理システムにおいて, 正確なテキスト理解を実現し, ユーザとの自然な対話を促進するために不可欠である。
本稿では,外部参照に頼ることなく,言語の暗黙度を定量化するスカラー計量を開発した。
ImpScoreは、12,580$(単純文、明示文)のペアからなる特別なキュレートされたデータセットに対して、ペアのコントラスト学習を使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-11-07T20:23:29Z) - Concept-Based Explanations to Test for False Causal Relationships
Learned by Abusive Language Classifiers [7.022948483613113]
大規模な英語データセットで訓練された3つのよく知られた乱用言語分類器について考察する。
まず,すべての決定しきい値にまたがる課題に対して,その正確さを評価することによって,分類器が学習した不要な依存関係について検討する。
次に、概念に基づく説明指標を導入し、概念がラベルに与える影響を評価する。
論文 参考訳(メタデータ) (2023-07-04T19:57:54Z) - Human-Guided Fair Classification for Natural Language Processing [9.652938946631735]
本稿では、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文を生成する方法を示す。
これらのペアの多くは、毒性分類の文脈における公正性に関する人間の直感と一致していることを確認した。
論文 参考訳(メタデータ) (2022-12-20T10:46:40Z) - Towards Intrinsic Common Discriminative Features Learning for Face
Forgery Detection using Adversarial Learning [59.548960057358435]
本稿では, 対人学習を利用して, 異なる偽造法と顔の同一性による負の効果を除去する手法を提案する。
我々の顔偽造検出モデルは、偽造法や顔の同一性の影響を排除し、共通の識別的特徴を抽出することを学ぶ。
論文 参考訳(メタデータ) (2022-07-08T09:23:59Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Necessity and Sufficiency for Explaining Text Classifiers: A Case Study
in Hate Speech Detection [7.022948483613112]
本稿では,テキスト分類器を記述し,ヘイトスピーチ検出の文脈で解析する特徴属性法を提案する。
我々は2つの相補的で理論的に根ざしたスコア -- 必然性と十分性 -- を提供し、より情報的な説明をもたらす。
提案手法は,テストスイートから得られた同じ例の集合上で異なるヘイトスピーチ検出モデルの予測を解析し,必要条件と有効条件の異なる値が,異なる種類の偽陽性誤りに対応していることを示す。
論文 参考訳(メタデータ) (2022-05-06T15:34:48Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - On the Effects of Knowledge-Augmented Data in Word Embeddings [0.6749750044497732]
単語埋め込み学習のためのデータ拡張による言語知識注入のための新しい手法を提案する。
提案手法は,学習した埋め込みの本質的な特性を向上すると同時に,下流テキスト分類タスクにおける結果の大幅な変更は行わない。
論文 参考訳(メタデータ) (2020-10-05T02:14:13Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。