論文の概要: Intrinsic Bias Metrics Do Not Correlate with Application Bias
- arxiv url: http://arxiv.org/abs/2012.15859v2
- Date: Sat, 2 Jan 2021 11:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 20:04:16.898213
- Title: Intrinsic Bias Metrics Do Not Correlate with Application Bias
- Title(参考訳): 内在バイアスメトリクスはアプリケーションバイアスと相関しない
- Authors: Seraphina Goldfarb-Tarrant, Rebecca Marchant, Ricardo Mu\~noz Sanchez,
Mugdha Pandya, Adam Lopez
- Abstract要約: 本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。
異なるタスクと実験条件をカバーする数百のトレーニングモデルに対して,内在バイアスと外部バイアスの両方を測定した。
埋め込みスペースのデビア化の取り組みは、常に下流モデルバイアスの測定とペアリングされることを推奨し、追加のチャレンジセットと注釈付きテストデータの作成を通じて下流測定をより実現可能にするためのコミュニティの努力を高めることを提案します。
- 参考スコア(独自算出の注目度): 12.588713044749179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing (NLP) systems learn harmful societal biases that
cause them to widely proliferate inequality as they are deployed in more and
more situations. To address and combat this, the NLP community relies on a
variety of metrics to identify and quantify bias in black-box models and to
guide efforts at debiasing. Some of these metrics are intrinsic, and are
measured in word embedding spaces, and some are extrinsic, which measure the
bias present downstream in the tasks that the word embeddings are plugged into.
This research examines whether easy-to-measure intrinsic metrics correlate well
to real world extrinsic metrics. We measure both intrinsic and extrinsic bias
across hundreds of trained models covering different tasks and experimental
conditions and find that there is no reliable correlation between these metrics
that holds in all scenarios across tasks and languages. We advise that efforts
to debias embedding spaces be always also paired with measurement of downstream
model bias, and suggest that that community increase effort into making
downstream measurement more feasible via creation of additional challenge sets
and annotated test data. We additionally release code, a new intrinsic metric,
and an annotated test set for gender bias for hatespeech.
- Abstract(参考訳): 自然言語処理(NLP)システムは有害な社会的バイアスを学習し、ますます多くの状況に配備されるにつれて不平等が広範に拡大する。
この問題に対処し、対処するために、NLPコミュニティは、ブラックボックスモデルのバイアスを特定し、定量化し、デバイアスの取り組みをガイドするために、さまざまな指標に依存している。
これらの指標のいくつかは内在的であり、単語埋め込み空間で測定され、一部は外在的であり、単語埋め込みがプラグインされるタスクの下流に存在するバイアスを測定する。
本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。
異なるタスクと実験的な条件をカバーする数百のトレーニングモデルを通じて内在バイアスと外部バイアスを計測し、これらのメトリクスがタスクと言語をまたいだすべてのシナリオに持つ信頼できる相関関係がないことを発見した。
我々は、埋め込み空間をデバイアスする努力は、常に下流モデルのバイアスの測定と組み合わせることを推奨し、コミュニティは、追加のチャレンジセットと注釈付きテストデータの作成によって下流の計測をより実現可能にする努力を増すことを示唆する。
さらに、コード、新しい本質的なメトリクス、hatspeechのジェンダーバイアスのための注釈付きテストセットをリリースしました。
関連論文リスト
- Mitigating Gender Bias in Contextual Word Embeddings [1.208453901299241]
本稿では,コンテキスト埋め込みにおける性別バイアスを大幅に軽減する,リップスティック(マスケ・ランゲージ・モデリング)の新たな目的関数を提案する。
また, 静的な埋め込みを嫌悪する新しい手法を提案し, 広範囲な解析と実験による実証実験を行った。
論文 参考訳(メタデータ) (2024-11-18T21:36:44Z) - Analyzing Correlations Between Intrinsic and Extrinsic Bias Metrics of Static Word Embeddings With Their Measuring Biases Aligned [8.673018064714547]
本研究では,自然言語処理(NLP)システムがバイアス行動を示すかどうかを予測するために,静的単語埋め込みの固有バイアス指標の有用性について検討する。
単語埋め込みは、実際のベクトルを通して単語の意味を表現する基本的なNLP技術の1つであり、問題として、ステレオタイプのような社会的バイアスも学習する。
論文 参考訳(メタデータ) (2024-09-14T02:13:56Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Choose Your Lenses: Flaws in Gender Bias Evaluation [29.16221451643288]
ジェンダーバイアス評価の現在のパラダイムを評価し、その中のいくつかの欠陥を同定する。
まず、あるタスクにおけるモデルのパフォーマンスがジェンダーによってどのように影響を受けるかを測定する、外在バイアス指標の重要性を強調する。
第二に、データセットとメトリクスが頻繁に結合されていることを発見し、それらの結合がいかにして信頼できる結論を得る能力を妨げているかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T17:59:55Z) - How Gender Debiasing Affects Internal Model Representations, and Why It
Matters [26.993273464725995]
内因性バイアスは、標準のWEAT測定値よりもデバイアスの指標として優れていることを示す。
当社のフレームワークは,NLPモデルのバイアスを包括的に把握し,より情報のある方法でNLPシステムのデプロイに適用することができる。
論文 参考訳(メタデータ) (2022-04-14T08:54:15Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Evaluating Metrics for Bias in Word Embeddings [44.14639209617701]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。