論文の概要: Towards Understanding and Mitigating Social Biases in Language Models
- arxiv url: http://arxiv.org/abs/2106.13219v1
- Date: Thu, 24 Jun 2021 17:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:22:02.499547
- Title: Towards Understanding and Mitigating Social Biases in Language Models
- Title(参考訳): 言語モデルにおける社会的バイアスの理解と緩和に向けて
- Authors: Paul Pu Liang, Chiyu Wu, Louis-Philippe Morency, Ruslan Salakhutdinov
- Abstract要約: 大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
- 参考スコア(独自算出の注目度): 107.82654101403264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning methods are deployed in real-world settings such as
healthcare, legal systems, and social science, it is crucial to recognize how
they shape social biases and stereotypes in these sensitive decision-making
processes. Among such real-world deployments are large-scale pretrained
language models (LMs) that can be potentially dangerous in manifesting
undesirable representational biases - harmful biases resulting from
stereotyping that propagate negative generalizations involving gender, race,
religion, and other social constructs. As a step towards improving the fairness
of LMs, we carefully define several sources of representational biases before
proposing new benchmarks and metrics to measure them. With these tools, we
propose steps towards mitigating social biases during text generation. Our
empirical results and human evaluation demonstrate effectiveness in mitigating
bias while retaining crucial contextual information for high-fidelity text
generation, thereby pushing forward the performance-fairness Pareto frontier.
- Abstract(参考訳): 機械学習の手法は、医療、法制度、社会科学といった現実世界で展開されるため、これらの敏感な意思決定プロセスにおいて、社会的バイアスやステレオタイプをどのように形作るかを認識することが不可欠である。
このような実世界の展開の中には、大規模な事前学習された言語モデル(lms)があり、望ましくない表現バイアスを顕現するのに潜在的に危険である。
LMの公平性を改善するためのステップとして、新しいベンチマークやメトリクスを提案する前に、いくつかの表現バイアス源を慎重に定義する。
これらのツールを用いて、テキスト生成時の社会的偏見を軽減するためのステップを提案する。
実験結果と人的評価は,高忠実度テキスト生成において重要な文脈情報を保持しつつバイアス軽減効果を示し,パレートフロンティアを推進している。
関連論文リスト
- Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Toward Fairness in Text Generation via Mutual Information Minimization
based on Importance Sampling [23.317845744611375]
そこで本研究では,生成した文のセマンティクスと人口極性との間の相互情報の最小化を提案する。
このように、人口集団の言及は、生成したテキストに記述される方法から独立することが奨励される。
また, 脱バイアス後のPLMの言語モデリング能力を維持する蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-02-25T18:29:02Z) - Blacks is to Anger as Whites is to Joy? Understanding Latent Affective
Bias in Large Pre-trained Neural Language Models [3.5278693565908137]
感情バイアス(Affective Bias)とは、特定の性別、人種、宗教に対する感情の関連性である。
PLMに基づく感情検出システムに統計的に有意な感情バイアスが存在することを示す。
論文 参考訳(メタデータ) (2023-01-21T20:23:09Z) - Understanding Stereotypes in Language Models: Towards Robust Measurement
and Zero-Shot Debiasing [43.22485763835496]
生成言語モデルで表現されるバイアスを頑健に測定する新しい枠組みを提案する。
我々は,この枠組みを用いて,GPT-3の職業性偏見を調査し,微調整を必要とせず,これらの偏見を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Towards Debiasing Sentence Representations [109.70181221796469]
Sent-Debiasはバイアスを取り除くのに有効であり、同時に文レベルの下流タスクのパフォーマンスを保っていることを示す。
我々は、より公平なNLPのための広く採用されている文表現から社会的偏見を識別・除去する今後の研究に刺激を与えることを期待している。
論文 参考訳(メタデータ) (2020-07-16T04:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。