論文の概要: Measuring Social Biases in Masked Language Models by Proxy of Prediction Quality
- arxiv url: http://arxiv.org/abs/2402.13954v3
- Date: Wed, 05 Feb 2025 23:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 17:43:51.309150
- Title: Measuring Social Biases in Masked Language Models by Proxy of Prediction Quality
- Title(参考訳): 予測品質のプロキシによるマスケ言語モデルにおける社会的バイアスの測定
- Authors: Rahul Zalkikar, Kanchan Chandra,
- Abstract要約: トランスフォーマーモデルは、様々な自然言語タスクに対して最先端のパフォーマンスを達成したが、望ましくないバイアスを符号化することが示されている。
本研究では,トランスフォーマーモデルの予測の質を評価するために,提案するプロキシ関数を用いて,マスク付き言語モデリングの目的を訓練したトランスフォーマーによって符号化された社会的バイアスを評価する。
我々は,すべてのモデルが社会的偏見をエンコードしているのを見出した。ベンチマークデータセットを用いた他の評価手法による偏見推定と比較する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformer language models have achieved state-of-the-art performance for a variety of natural language tasks but have been shown to encode unwanted biases. We evaluate the social biases encoded by transformers trained with the masked language modeling objective using proposed proxy functions within an iterative masking experiment to measure the quality of transformer models' predictions and assess the preference of MLMs towards disadvantaged and advantaged groups. We find all models encode concerning social biases. We compare bias estimations with those produced by other evaluation methods using benchmark datasets and assess their alignment with human annotated biases. We extend previous work by evaluating social biases introduced after retraining an MLM under the masked language modeling objective and find proposed measures produce more accurate and sensitive estimations of biases introduced by retraining MLMs based on relative preference for biased sentences between models, while other methods tend to underestimate biases after retraining on sentences biased towards disadvantaged groups.
- Abstract(参考訳): トランスフォーマー言語モデルは、様々な自然言語タスクに対して最先端のパフォーマンスを達成したが、望ましくないバイアスをエンコードすることが示されている。
反復マスキング実験で提案した代用関数を用いて、マスク言語モデリング目標を用いて訓練されたトランスフォーマーによって符号化された社会的バイアスを評価し、トランスフォーマーモデルの予測の質を測定し、不利で有利なグループに対するMLMの嗜好を評価する。
すべてのモデルが社会的偏見をコード化しています。
我々は、ベンチマークデータセットを用いた他の評価手法とバイアス推定を比較し、それらのアノテートされたバイアスとのアライメントを評価する。
我々は、マスク言語モデリングの目的の下でMLMの再訓練後に導入された社会的バイアスを評価し、モデル間のバイアス付き文の相対的嗜好に基づいて、MLMの再訓練によって導入されたバイアスのより正確で敏感な推定結果を得るのに対し、他の手法では、不利なグループに偏った文に対する再学習後にバイアスを過小評価する傾向にあることを見出した。
関連論文リスト
- Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。
LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。
本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-07T17:11:34Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Taxonomy-based CheckList for Large Language Model Evaluation [0.0]
我々は、自然言語の介入に人間の知識を導入し、事前訓練された言語モデル(LM)の振る舞いを研究する。
CheckListの振る舞いテストに触発されて,LMの非倫理的行動の探索と定量化を目的としたチェックリストスタイルのタスクを提案する。
論文 参考訳(メタデータ) (2023-12-15T12:58:07Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Constructing Holistic Measures for Social Biases in Masked Language
Models [17.45153670825904]
Masked Language Models (MLM)は多くの自然言語処理タスクで成功している。
現実世界のステレオタイプバイアスは、大きなテキストコーパスから学んだことから、インスパイアされる可能性が高い。
Kullback Leiblergence Score (KLDivS) とJensen Shannon Divergence Score (JSDivS) の2つの評価指標を提案し,社会バイアスの評価を行った。
論文 参考訳(メタデータ) (2023-05-12T23:09:06Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。