論文の概要: Toward Fairness in Text Generation via Mutual Information Minimization
based on Importance Sampling
- arxiv url: http://arxiv.org/abs/2302.13136v1
- Date: Sat, 25 Feb 2023 18:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:49:41.239352
- Title: Toward Fairness in Text Generation via Mutual Information Minimization
based on Importance Sampling
- Title(参考訳): 重要度サンプリングに基づく相互情報最小化によるテキスト生成の公平性
- Authors: Rui Wang, Pengyu Cheng, Ricardo Henao
- Abstract要約: そこで本研究では,生成した文のセマンティクスと人口極性との間の相互情報の最小化を提案する。
このように、人口集団の言及は、生成したテキストに記述される方法から独立することが奨励される。
また, 脱バイアス後のPLMの言語モデリング能力を維持する蒸留機構を提案する。
- 参考スコア(独自算出の注目度): 23.317845744611375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs), such as GPT2, have achieved remarkable
empirical performance in text generation tasks. However, pretrained on
large-scale natural language corpora, the generated text from PLMs may exhibit
social bias against disadvantaged demographic groups. To improve the fairness
of PLMs in text generation, we propose to minimize the mutual information
between the semantics in the generated text sentences and their demographic
polarity, i.e., the demographic group to which the sentence is referring. In
this way, the mentioning of a demographic group (e.g., male or female) is
encouraged to be independent from how it is described in the generated text,
thus effectively alleviating the social bias. Moreover, we propose to
efficiently estimate the upper bound of the above mutual information via
importance sampling, leveraging a natural language corpus. We also propose a
distillation mechanism that preserves the language modeling ability of the PLMs
after debiasing. Empirical results on real-world benchmarks demonstrate that
the proposed method yields superior performance in term of both fairness and
language modeling ability.
- Abstract(参考訳): GPT2のような事前訓練された言語モデル(PLM)は、テキスト生成タスクにおいて顕著な経験的性能を達成した。
しかし、大規模な自然言語コーパスで事前訓練されたplmから生成されたテキストは、不利な集団に対する社会的偏見を示す可能性がある。
テキスト生成におけるPLMの公平性を改善するため,生成したテキスト文のセマンティクスとそれらの人口極性,すなわち文を参照する人口集団との間の相互情報の最小化を提案する。
このように、人口集団(例えば、男性や女性)の言及は、生成したテキストでどのように記述されるかから独立して、社会的偏見を効果的に緩和する。
さらに,本稿では,自然言語コーパスを活用した重要サンプリングにより,上記の相互情報の上限を効率的に推定する。
また, 脱バイアス後のPLMの言語モデリング能力を保った蒸留機構を提案する。
実世界のベンチマーク実験の結果から,提案手法は公平性と言語モデリング能力の両方において優れた性能をもたらすことが示された。
関連論文リスト
- LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models [19.18522268167047]
大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて印象的なパフォーマンスを達成した。
しかし、一部の人口集団に偏った、ネガティブで有害なコンテンツを生み出すことに苦しむ。
本稿では,(L)LMを高い流速で脱バイアスするフレームワークであるLIDAOを提案する。
論文 参考訳(メタデータ) (2024-06-01T20:12:54Z) - All Should Be Equal in the Eyes of Language Models: Counterfactually
Aware Fair Text Generation [16.016546693767403]
本研究では,多様な階層のモデル理解を動的に比較し,より公平な文を生成する枠組みを提案する。
CAFIEはより公平なテキストを生成し、公平性と言語モデリング能力の最良のバランスを打ちます。
論文 参考訳(メタデータ) (2023-11-09T15:39:40Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - COFFEE: Counterfactual Fairness for Personalized Text Generation in
Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。
説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-14T02:29:10Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。