論文の概要: Towards Controllable Biases in Language Generation
- arxiv url: http://arxiv.org/abs/2005.00268v2
- Date: Wed, 7 Oct 2020 05:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:47:33.762644
- Title: Towards Controllable Biases in Language Generation
- Title(参考訳): 言語生成における制御可能なバイアス
- Authors: Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, Nanyun Peng
- Abstract要約: 本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
- 参考スコア(独自算出の注目度): 87.89632038677912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a general approach towards controllable societal biases in natural
language generation (NLG). Building upon the idea of adversarial triggers, we
develop a method to induce societal biases in generated text when input prompts
contain mentions of specific demographic groups. We then analyze two scenarios:
1) inducing negative biases for one demographic and positive biases for another
demographic, and 2) equalizing biases between demographics. The former scenario
enables us to detect the types of biases present in the model. Specifically, we
show the effectiveness of our approach at facilitating bias analysis by finding
topics that correspond to demographic inequalities in generated text and
comparing the relative effectiveness of inducing biases for different
demographics. The second scenario is useful for mitigating biases in downstream
applications such as dialogue generation. In our experiments, the mitigation
technique proves to be effective at equalizing the amount of biases across
demographics while simultaneously generating less negatively biased text
overall.
- Abstract(参考訳): 自然言語生成(NLG)における制御可能な社会的バイアスに対する一般的なアプローチを提案する。
対向的引き金という概念に基づいて,入力プロンプトが特定の集団の言及を含む場合に,生成したテキストに社会バイアスを誘発する手法を開発した。
次に2つのシナリオを分析します
1)一方の人口統計学における負のバイアスと他方の人口統計学における正のバイアスを誘導し、
2)人口間バイアスの等化。
前者のシナリオでは、モデルに存在するバイアスの種類を検出できます。
具体的には、生成したテキストの人口不平等に対応するトピックを見つけ出し、異なる人口層に対してバイアスを誘導する相対的効果を比較することにより、バイアス分析を促進するアプローチの有効性を示す。
第2のシナリオは、対話生成のような下流アプリケーションにおけるバイアス緩和に有用である。
我々の実験では、緩和法は人口統計学における偏見の量を等しくすると同時に、全体の偏見の少ないテキストを生成するのに有効であることが証明された。
関連論文リスト
- Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - COFFEE: Counterfactual Fairness for Personalized Text Generation in
Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。
説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-14T02:29:10Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification [36.361778457307636]
ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
論文 参考訳(メタデータ) (2021-05-06T16:17:38Z) - Detecting Emergent Intersectional Biases: Contextualized Word Embeddings
Contain a Distribution of Human-like Biases [10.713568409205077]
最先端のニューラルネットワークモデルは、単語が現れるコンテキストに依存する動的単語埋め込みを生成する。
本稿では、ニューラルネットワークモデルにおける全体的なバイアスの大きさを要約できる、コンテキスト適応型埋め込みアソシエーションテスト(CEAT)を紹介する。
静的な単語埋め込みから交差点バイアスと緊急交差点バイアスを自動的に識別する2つの方法,IBD (Intersectional Bias Detection) とEmergent Intersectional Bias Detection (EIBD) を開発した。
論文 参考訳(メタデータ) (2020-06-06T19:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。