論文の概要: Understanding Stereotypes in Language Models: Towards Robust Measurement
and Zero-Shot Debiasing
- arxiv url: http://arxiv.org/abs/2212.10678v1
- Date: Tue, 20 Dec 2022 22:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:54:17.210730
- Title: Understanding Stereotypes in Language Models: Towards Robust Measurement
and Zero-Shot Debiasing
- Title(参考訳): 言語モデルにおけるステレオタイプ理解:ロバストな計測とゼロショットデバイアスに向けて
- Authors: Justus Mattern, Zhijing Jin, Mrinmaya Sachan, Rada Mihalcea, Bernhard
Sch\"olkopf
- Abstract要約: 生成言語モデルで表現されるバイアスを頑健に測定する新しい枠組みを提案する。
我々は,この枠組みを用いて,GPT-3の職業性偏見を調査し,微調整を必要とせず,これらの偏見を緩和する手法を提案する。
- 参考スコア(独自算出の注目度): 43.22485763835496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generated texts from large pretrained language models have been shown to
exhibit a variety of harmful, human-like biases about various demographics.
These findings prompted large efforts aiming to understand and measure such
effects, with the goal of providing benchmarks that can guide the development
of techniques mitigating these stereotypical associations. However, as recent
research has pointed out, the current benchmarks lack a robust experimental
setup, consequently hindering the inference of meaningful conclusions from
their evaluation metrics. In this paper, we extend these arguments and
demonstrate that existing techniques and benchmarks aiming to measure
stereotypes tend to be inaccurate and consist of a high degree of experimental
noise that severely limits the knowledge we can gain from benchmarking language
models based on them. Accordingly, we propose a new framework for robustly
measuring and quantifying biases exhibited by generative language models.
Finally, we use this framework to investigate GPT-3's occupational gender bias
and propose prompting techniques for mitigating these biases without the need
for fine-tuning.
- Abstract(参考訳): 大きな事前訓練された言語モデルから生成されたテキストは、様々な人口統計学に関する有害で人間的な偏見を示すことが示されている。
これらの知見は、これらのステレオタイプ的関連を緩和する技術開発を導くためのベンチマークを提供することを目標とし、そのような効果を理解し、測定することを目的とした大きな取り組みを引き起こした。
しかし、最近の研究で指摘されているように、現在のベンチマークには堅牢な実験的な設定がなく、その結果、評価指標から意味のある結論が推測できない。
本稿では,これらの議論を拡張し,ステレオタイプを測定するための既存の手法やベンチマークが不正確であり,それらに基づくベンチマーク言語モデルから得られる知識を著しく制限する高い実験ノイズからなることを示した。
そこで本研究では,生成言語モデルが提示するバイアスを頑健に測定し,定量化する新しい枠組みを提案する。
最後に、この枠組みを用いて、GPT-3の職業性バイアスを調査し、微調整を必要とせず、これらのバイアスを軽減する手法を提案する。
関連論文リスト
- Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language
Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。
我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。
我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文 参考訳(メタデータ) (2023-05-22T06:28:48Z) - Characteristics of Harmful Text: Towards Rigorous Benchmarking of
Language Models [32.960462266615096]
大規模な言語モデルは、多くのアプリケーションを動かす人間のようなテキストを生成する。
近年の文献や現実世界の観測により、これらのモデルが有害、偏見があり、非現実的、その他の有害な言語を生成できることが証明されている。
我々は、新しいベンチマークを設計する際、明らかな考慮に値する有害なテキストを特徴づける6つの方法を概説する。
論文 参考訳(メタデータ) (2022-06-16T17:28:01Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - An Empirical Survey of the Effectiveness of Debiasing Techniques for
Pre-Trained Language Models [4.937002982255573]
最近の研究によると、事前学習された言語モデルは、訓練されたテキストコーパスから社会的偏見を捉えている。
最近提案された5つのデバイアス技術: 対実データ拡張、ドロップアウト、イテレーティブヌルスペース投影、セルフデバイアス、センテンスデバイアス。
3つの異なるバイアスベンチマークを用いて各手法の有効性を定量化するとともに,これらの手法がモデル言語モデリング能力に与える影響を計測する。
論文 参考訳(メタデータ) (2021-10-16T09:40:30Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。