論文の概要: Human-Guided Fair Classification for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2212.10154v1
- Date: Tue, 20 Dec 2022 10:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:35:22.448489
- Title: Human-Guided Fair Classification for Natural Language Processing
- Title(参考訳): 自然言語処理のための人間誘導公正分類
- Authors: Florian E.Dorner, Momchil Peychev, Nikola Konstantinov, Naman Goel,
Elliott Ash, Martin Vechev
- Abstract要約: 本稿では、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文を生成する方法を示す。
これらのペアの多くは、毒性分類の文脈における公正性に関する人間の直感と一致していることを確認した。
- 参考スコア(独自算出の注目度): 9.652938946631735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text classifiers have promising applications in high-stake tasks such as
resume screening and content moderation. These classifiers must be fair and
avoid discriminatory decisions by being invariant to perturbations of sensitive
attributes such as gender or ethnicity. However, there is a gap between human
intuition about these perturbations and the formal similarity specifications
capturing them. While existing research has started to address this gap,
current methods are based on hardcoded word replacements, resulting in
specifications with limited expressivity or ones that fail to fully align with
human intuition (e.g., in cases of asymmetric counterfactuals). This work
proposes novel methods for bridging this gap by discovering expressive and
intuitive individual fairness specifications. We show how to leverage
unsupervised style transfer and GPT-3's zero-shot capabilities to automatically
generate expressive candidate pairs of semantically similar sentences that
differ along sensitive attributes. We then validate the generated pairs via an
extensive crowdsourcing study, which confirms that a lot of these pairs align
with human intuition about fairness in the context of toxicity classification.
Finally, we show how limited amounts of human feedback can be leveraged to
learn a similarity specification that can be used to train downstream
fairness-aware models.
- Abstract(参考訳): テキスト分類器は、履歴表示やコンテンツモデレーションなどの高精細なタスクに有望な応用がある。
これらの分類は公平であり、性別や民族などのセンシティブな属性の摂動に不変であることによって差別的決定を避ける必要がある。
しかし、これらの摂動に関する人間の直感と、それらを捉える形式的な類似性仕様との間にはギャップがある。
既存の研究はこのギャップに対処し始めたが、現在の手法はハードコードされた単語置換に基づいており、結果として表現力に制限がある仕様や人間の直観(例えば非対称な反事実)と完全に一致しない仕様が導かれる。
本研究は,表現的かつ直感的な個性仕様を発見することによって,このギャップを埋める新しい手法を提案する。
我々は、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文の表現的候補ペアを自動的に生成する方法を示す。
次に, 有毒性分類の文脈における公正性に関する人間の直観と一致することを確認する, クラウドソーシングによる広範囲な研究により, 生成したペアを検証する。
最後に、下流のフェアネス認識モデルのトレーニングに使用できる類似性仕様を学習するために、人間のフィードバックがいかに限られた量で活用できるかを示す。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Fair Text Classification with Wasserstein Independence [4.887319013701134]
グループフェアネスはテキスト分類における中心的な研究テーマであり、センシティブなグループ間で公平な扱いを受けることはオープンな課題である。
本稿では,モデルアーキテクチャに非依存なニューラルテキスト分類におけるバイアス軽減手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T15:51:06Z) - Improving Fairness using Vision-Language Driven Image Augmentation [60.428157003498995]
公平性は、特に顔領域において、ディープラーニングの識別モデルを訓練する際に重要である。
モデルは、特定の特性(年齢や肌の色など)と無関係な属性(下流タスク)を関連付ける傾向がある
本稿では,これらの相関を緩和し,公平性を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T19:51:10Z) - Counterfactual Reasoning for Bias Evaluation and Detection in a Fairness
under Unawareness setting [6.004889078682389]
現在のAI規制では、不公平な結果を防ぐために、アルゴリズムの意思決定プロセスで機密機能を破棄する必要がある。
本稿では、機密機能が破棄された場合でも継続可能な機械学習モデルの潜在的な隠れバイアスを明らかにする方法を提案する。
論文 参考訳(メタデータ) (2023-02-16T10:36:18Z) - Towards Procedural Fairness: Uncovering Biases in How a Toxic Language
Classifier Uses Sentiment Information [7.022948483613112]
この研究は、不公平なプロセスが不公平な結果をもたらす手続き的公正性を評価するための一歩である。
生成された知識は、トレーニングデータセットにおいてアイデンティティ用語以外の重要な概念が適切に表現されていることを保証するために、デバイアス技術(debiasing techniques)をガイドすることができる。
論文 参考訳(メタデータ) (2022-10-19T16:03:25Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Contrasting Human- and Machine-Generated Word-Level Adversarial Examples
for Text Classification [12.750016480098262]
我々は,入力テキスト中の単語の反復的な修正を人間に課すクラウドソーシング研究について報告する。
最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2021-09-09T16:16:04Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Towards classification parity across cohorts [16.21248370949611]
この研究は、明示的かつ暗黙的な感度のある特徴にまたがる分類パリティを達成することを目的としている。
言語モデルを用いて学習した個々の言語の埋め込みをクラスタリングすることで、暗黙のコホートを得る。
我々は,コホート間のモデル性能の範囲を最小化することを目的とした損失関数の修正を導入することにより,分類パリティを向上させる。
論文 参考訳(メタデータ) (2020-05-16T16:31:08Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。