論文の概要: Detect and Perturb: Neutral Rewriting of Biased and Sensitive Text via
Gradient-based Decoding
- arxiv url: http://arxiv.org/abs/2109.11708v1
- Date: Fri, 24 Sep 2021 01:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:16:33.090228
- Title: Detect and Perturb: Neutral Rewriting of Biased and Sensitive Text via
Gradient-based Decoding
- Title(参考訳): 検出と摂動: 勾配に基づく復号化によるバイアステキストと感性テキストのニュートラル書き直し
- Authors: Zexue He, Bodhisattwa Prasad Majumder, Julian McAuley
- Abstract要約: 感性属性を「中和」するために入力文を再生成する課題について検討する。
我々は、中性化(DEPEN)に対する検出と摂動という勾配に基づく書き換えフレームワークを提案する。
2つの異なるシナリオにおける実験により、DECENは他の属性のセマンティクスを維持しながら、センシティブな属性で中立な流動的な代替品を再生できることが示されている。
- 参考スコア(独自算出の注目度): 3.5312708080240207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Written language carries explicit and implicit biases that can distract from
meaningful signals. For example, letters of reference may describe male and
female candidates differently, or their writing style may indirectly reveal
demographic characteristics. At best, such biases distract from the meaningful
content of the text; at worst they can lead to unfair outcomes. We investigate
the challenge of re-generating input sentences to 'neutralize' sensitive
attributes while maintaining the semantic meaning of the original text (e.g. is
the candidate qualified?). We propose a gradient-based rewriting framework,
Detect and Perturb to Neutralize (DEPEN), that first detects sensitive
components and masks them for regeneration, then perturbs the generation model
at decoding time under a neutralizing constraint that pushes the (predicted)
distribution of sensitive attributes towards a uniform distribution. Our
experiments in two different scenarios show that DEPEN can regenerate fluent
alternatives that are neutral in the sensitive attribute while maintaining the
semantics of other attributes.
- Abstract(参考訳): 書かれた言語は明示的で暗黙の偏見を持ち、意味のある信号に注意をそらすことができる。
例えば、レファレンス文字は男女の候補者を別々に記述したり、その書き込みスタイルが間接的に人口動態の特徴を明らかにすることがある。
せいぜい、そのような偏見はテキストの有意義な内容から逸脱し、最悪の場合不公平な結果につながる可能性がある。
本研究では,原文の意味的意味を維持しつつ,センシティブな属性を「中和」するために入力文を再生成する課題について検討する。
本稿では,まず感度の高いコンポーネントを検出し,再生のためにマスキングし,その後,感度の高い属性の(予測された)分布を一様分布にプッシュする中性化制約の下でデコード時に生成モデルを摂動させる,勾配に基づく書き換えフレームワークを提案する。
2つの異なるシナリオにおける実験により、DECENは他の属性のセマンティクスを維持しながら、センシティブな属性で中立な流動的な代替品を再生できることが示されている。
関連論文リスト
- IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - Fair Text Classification with Wasserstein Independence [4.887319013701134]
グループフェアネスはテキスト分類における中心的な研究テーマであり、センシティブなグループ間で公平な扱いを受けることはオープンな課題である。
本稿では,モデルアーキテクチャに非依存なニューラルテキスト分類におけるバイアス軽減手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T15:51:06Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Counterfactual Reasoning for Bias Evaluation and Detection in a Fairness
under Unawareness setting [6.004889078682389]
現在のAI規制では、不公平な結果を防ぐために、アルゴリズムの意思決定プロセスで機密機能を破棄する必要がある。
本稿では、機密機能が破棄された場合でも継続可能な機械学習モデルの潜在的な隠れバイアスを明らかにする方法を提案する。
論文 参考訳(メタデータ) (2023-02-16T10:36:18Z) - Human-Guided Fair Classification for Natural Language Processing [9.652938946631735]
本稿では、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文を生成する方法を示す。
これらのペアの多くは、毒性分類の文脈における公正性に関する人間の直感と一致していることを確認した。
論文 参考訳(メタデータ) (2022-12-20T10:46:40Z) - COFFEE: Counterfactual Fairness for Personalized Text Generation in
Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。
説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-14T02:29:10Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Neutralizing Gender Bias in Word Embedding with Latent Disentanglement
and Counterfactual Generation [25.060917870666803]
適応的な勾配反転層を有するシアム自動エンコーダ構造を導入する。
我々の構造は,単語の意味潜時情報と性別潜時情報を,非結合潜時次元に分離することを可能にする。
論文 参考訳(メタデータ) (2020-04-07T05:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。