論文の概要: Unmasking the Mask -- Evaluating Social Biases in Masked Language Models
- arxiv url: http://arxiv.org/abs/2104.07496v1
- Date: Thu, 15 Apr 2021 14:40:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 21:49:53.040128
- Title: Unmasking the Mask -- Evaluating Social Biases in Masked Language Models
- Title(参考訳): unmasking the mask -- マスキング言語モデルにおける社会的バイアスの評価
- Authors: Masahiro Kaneko and Danushka Bollegala
- Abstract要約: Masked Language Models(MLM)は、テキストエンコーダとして使用すると、多数の下流NLPタスクで優れたパフォーマンスを発揮します。
テストケースにおける全てのトークンを予測するバイアス評価尺度であるAll Unmasked Likelihood (AUL)を提案する。
また,注意重み付きALU(AULA)を文中のトークンの重要性に基づいて評価する手法を提案する。
- 参考スコア(独自算出の注目度): 28.378270372391498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Language Models (MLMs) have shown superior performances in numerous
downstream NLP tasks when used as text encoders. Unfortunately, MLMs also
demonstrate significantly worrying levels of social biases. We show that the
previously proposed evaluation metrics for quantifying the social biases in
MLMs are problematic due to following reasons: (1) prediction accuracy of the
masked tokens itself tend to be low in some MLMs, which raises questions
regarding the reliability of the evaluation metrics that use the (pseudo)
likelihood of the predicted tokens, and (2) the correlation between the
prediction accuracy of the mask and the performance in downstream NLP tasks is
not taken into consideration, and (3) high frequency words in the training data
are masked more often, introducing noise due to this selection bias in the test
cases. To overcome the above-mentioned disfluencies, we propose All Unmasked
Likelihood (AUL), a bias evaluation measure that predicts all tokens in a test
case given the MLM embedding of the unmasked input. We find that AUL accurately
detects different types of biases in MLMs. We also propose AUL with attention
weights (AULA) to evaluate tokens based on their importance in a sentence.
However, unlike AUL and AULA, previously proposed bias evaluation measures for
MLMs systematically overestimate the measured biases, and are heavily
influenced by the unmasked tokens in the context.
- Abstract(参考訳): Masked Language Models (MLM) は、テキストエンコーダとして使われる多くの下流のNLPタスクにおいて、優れたパフォーマンスを示している。
残念ながら、MLMは社会的偏見のレベルを著しく心配していることも示している。
We show that the previously proposed evaluation metrics for quantifying the social biases in MLMs are problematic due to following reasons: (1) prediction accuracy of the masked tokens itself tend to be low in some MLMs, which raises questions regarding the reliability of the evaluation metrics that use the (pseudo) likelihood of the predicted tokens, and (2) the correlation between the prediction accuracy of the mask and the performance in downstream NLP tasks is not taken into consideration, and (3) high frequency words in the training data are masked more often, introducing noise due to this selection bias in the test cases.
上記の不整合を克服するために,mlmが入力を埋め込みた場合に,テストケース内のすべてのトークンを予測するバイアス評価尺度であるall unmasked likelihood (aul)を提案する。
AULはMLMの異なる種類のバイアスを正確に検出する。
また,注意重み付きALU(AULA)を文中のトークンの重要性に基づいて評価する手法を提案する。
しかし、AULやAULAと異なり、以前提案されたMLMのバイアス評価尺度は、測定されたバイアスを体系的に過大評価し、文脈における不正トークンの影響を強く受けている。
関連論文リスト
- Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification [119.38495860737929]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Measuring Social Biases in Masked Language Models by Proxy of Prediction
Quality [0.0]
社会政治学者は、しばしばテキストデータ表現(埋め込み)とは異なるバイアスを発見し、測定することを目的としている。
本稿では,マスク付き言語モデルを用いて学習したトランスフォーマーによって符号化された社会的バイアスを評価する。
提案手法により,提案手法により, 変圧器間の偏りのある文の相対的嗜好を, より正確に推定できることがわかった。
論文 参考訳(メタデータ) (2024-02-21T17:33:13Z) - Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Constructing Holistic Measures for Social Biases in Masked Language
Models [17.45153670825904]
Masked Language Models (MLM)は多くの自然言語処理タスクで成功している。
現実世界のステレオタイプバイアスは、大きなテキストコーパスから学んだことから、インスパイアされる可能性が高い。
Kullback Leiblergence Score (KLDivS) とJensen Shannon Divergence Score (JSDivS) の2つの評価指標を提案し,社会バイアスの評価を行った。
論文 参考訳(メタデータ) (2023-05-12T23:09:06Z) - Representation Deficiency in Masked Language Modeling [101.42649777874767]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。
GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文 参考訳(メタデータ) (2023-02-04T01:54:17Z) - Inconsistencies in Masked Language Models [20.320583166619528]
Masked Language Model (MLM) は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。
異なるマスキングパターンに対応する分布は、かなりの矛盾を示す可能性がある。
本稿では,条件文の集合(Ensemble of Conditionals)と呼ばれる fors の推論時間戦略を提案する。
論文 参考訳(メタデータ) (2022-12-30T22:53:25Z) - Debiasing isn't enough! -- On the Effectiveness of Debiasing MLMs and
their Social Biases in Downstream Tasks [33.044775876807826]
仮面言語モデル(MLM)におけるタスク非依存とタスク固有の社会的偏見評価の内在的関係について検討する。
この2つの評価尺度の間には弱い相関しか存在しないことが判明した。
論文 参考訳(メタデータ) (2022-10-06T14:08:57Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。