論文の概要: NLPGuard: A Framework for Mitigating the Use of Protected Attributes by NLP Classifiers
- arxiv url: http://arxiv.org/abs/2407.01697v1
- Date: Mon, 1 Jul 2024 18:08:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:42:31.558975
- Title: NLPGuard: A Framework for Mitigating the Use of Protected Attributes by NLP Classifiers
- Title(参考訳): NLPGuard:NLP分類器による保護属性の使用を緩和するフレームワーク
- Authors: Salvatore Greco, Ke Zhou, Licia Capra, Tania Cerquitelli, Daniele Quercia,
- Abstract要約: NLP分類器における保護属性への依存を軽減するためのフレームワークであるNLPGuardを紹介する。
NLPGuardは、有害言語、感情分析、職業分類の3つの分類タスクに適用されている。
評価の結果,現在のNLP分類器は保護属性に大きく依存しており,これらの属性に関連付けられている単語の最大23%が有効であることがわかった。
- 参考スコア(独自算出の注目度): 7.4042849600387575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI regulations are expected to prohibit machine learning models from using sensitive attributes during training. However, the latest Natural Language Processing (NLP) classifiers, which rely on deep learning, operate as black-box systems, complicating the detection and remediation of such misuse. Traditional bias mitigation methods in NLP aim for comparable performance across different groups based on attributes like gender or race but fail to address the underlying issue of reliance on protected attributes. To partly fix that, we introduce NLPGuard, a framework for mitigating the reliance on protected attributes in NLP classifiers. NLPGuard takes an unlabeled dataset, an existing NLP classifier, and its training data as input, producing a modified training dataset that significantly reduces dependence on protected attributes without compromising accuracy. NLPGuard is applied to three classification tasks: identifying toxic language, sentiment analysis, and occupation classification. Our evaluation shows that current NLP classifiers heavily depend on protected attributes, with up to $23\%$ of the most predictive words associated with these attributes. However, NLPGuard effectively reduces this reliance by up to $79\%$, while slightly improving accuracy.
- Abstract(参考訳): AI規制は、トレーニング中に機密属性を使用する機械学習モデルを禁止することが期待されている。
しかし、ディープラーニングに依存する最新の自然言語処理(NLP)分類器は、ブラックボックスシステムとして機能し、そのような誤用の検出と修復を複雑にしている。
従来のNLPのバイアス緩和手法は、性別や人種などの属性に基づいて異なるグループ間で同等のパフォーマンスを目標としているが、保護された属性に依存しているという根本的な問題には対処できない。
NLP分類器の保護属性への依存を軽減するためのフレームワークであるNLPGuardを導入する。
NLPGuardはラベルのないデータセット、既存のNLP分類器、およびトレーニングデータを入力として取り、修正されたトレーニングデータセットを生成し、精度を損なうことなく保護属性への依存を著しく低減する。
NLPGuardは、有害言語、感情分析、職業分類の3つの分類タスクに適用されている。
評価の結果,現在のNLP分類器は保護属性に大きく依存しており,これらの属性に関連付けられた最も予測的な単語の最大23.%が有効であることがわかった。
しかし、NLPGuardは、精度をわずかに改善しながら、この依存を最大79セントまで効果的に削減する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - TaCo: Targeted Concept Erasure Prevents Non-Linear Classifiers From Detecting Protected Attributes [4.2560452339165895]
Targeted Concept Erasure (TaCo)は、最後の潜伏表現から機密情報を除去する新しいアプローチである。
実験の結果,TaCoは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-11T16:22:37Z) - Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations [29.32704733570445]
我々は人間とAIの会話のユースケースを対象とした入出力保護モデルであるLlama Guardを紹介した。
ラマガードは、特定の安全リスクを分類する貴重なツールである安全リスク分類を取り入れている。
Llama Guardは、OpenAIモデレーション評価データセットやToxicChatなど、既存のベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-07T19:40:50Z) - Large Language Models as Annotators: Enhancing Generalization of NLP
Models at Minimal Cost [6.662800021628275]
入力のアノテートやNLPモデルの一般化のための大言語モデル(LLM)について検討する。
ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-27T19:29:55Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - Improved Adaptive Algorithm for Scalable Active Learning with Weak
Labeler [89.27610526884496]
Weak Labeler Active Cover (WL-AC)は、要求される精度を維持しながら、クエリの複雑さを低減するために、低品質の弱いラベルを堅牢に活用することができる。
受動学習と同一の精度を維持しつつラベル数を著しく削減し, 劣化したMNISTデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2022-11-04T02:52:54Z) - Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel
Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。
提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。
提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文 参考訳(メタデータ) (2021-11-28T15:45:54Z) - Fair Classification with Adversarial Perturbations [35.030329189029246]
本研究は,学習サンプルの任意の$eta$-fractionを選択でき,保護属性を任意に摂動することができるような,万能な逆境の存在下での公平な分類について検討する。
我々の主な貢献は、精度と公正性に関する証明可能な保証を伴うこの逆条件で公平な分類法を学ぶための最適化フレームワークである。
我々は、自然な仮説クラスに対する我々のフレームワークの保証のほぼ正当性を証明している: どのアルゴリズムもはるかに精度が良く、より良い公正性を持つアルゴリズムは、より低い精度でなければならない。
論文 参考訳(メタデータ) (2021-06-10T17:56:59Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。