論文の概要: Intrinsic Bias Metrics Do Not Correlate with Application Bias
- arxiv url: http://arxiv.org/abs/2012.15859v2
- Date: Sat, 2 Jan 2021 11:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 20:04:16.898213
- Title: Intrinsic Bias Metrics Do Not Correlate with Application Bias
- Title(参考訳): 内在バイアスメトリクスはアプリケーションバイアスと相関しない
- Authors: Seraphina Goldfarb-Tarrant, Rebecca Marchant, Ricardo Mu\~noz Sanchez,
Mugdha Pandya, Adam Lopez
- Abstract要約: 本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。
異なるタスクと実験条件をカバーする数百のトレーニングモデルに対して,内在バイアスと外部バイアスの両方を測定した。
埋め込みスペースのデビア化の取り組みは、常に下流モデルバイアスの測定とペアリングされることを推奨し、追加のチャレンジセットと注釈付きテストデータの作成を通じて下流測定をより実現可能にするためのコミュニティの努力を高めることを提案します。
- 参考スコア(独自算出の注目度): 12.588713044749179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing (NLP) systems learn harmful societal biases that
cause them to widely proliferate inequality as they are deployed in more and
more situations. To address and combat this, the NLP community relies on a
variety of metrics to identify and quantify bias in black-box models and to
guide efforts at debiasing. Some of these metrics are intrinsic, and are
measured in word embedding spaces, and some are extrinsic, which measure the
bias present downstream in the tasks that the word embeddings are plugged into.
This research examines whether easy-to-measure intrinsic metrics correlate well
to real world extrinsic metrics. We measure both intrinsic and extrinsic bias
across hundreds of trained models covering different tasks and experimental
conditions and find that there is no reliable correlation between these metrics
that holds in all scenarios across tasks and languages. We advise that efforts
to debias embedding spaces be always also paired with measurement of downstream
model bias, and suggest that that community increase effort into making
downstream measurement more feasible via creation of additional challenge sets
and annotated test data. We additionally release code, a new intrinsic metric,
and an annotated test set for gender bias for hatespeech.
- Abstract(参考訳): 自然言語処理(NLP)システムは有害な社会的バイアスを学習し、ますます多くの状況に配備されるにつれて不平等が広範に拡大する。
この問題に対処し、対処するために、NLPコミュニティは、ブラックボックスモデルのバイアスを特定し、定量化し、デバイアスの取り組みをガイドするために、さまざまな指標に依存している。
これらの指標のいくつかは内在的であり、単語埋め込み空間で測定され、一部は外在的であり、単語埋め込みがプラグインされるタスクの下流に存在するバイアスを測定する。
本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。
異なるタスクと実験的な条件をカバーする数百のトレーニングモデルを通じて内在バイアスと外部バイアスを計測し、これらのメトリクスがタスクと言語をまたいだすべてのシナリオに持つ信頼できる相関関係がないことを発見した。
我々は、埋め込み空間をデバイアスする努力は、常に下流モデルのバイアスの測定と組み合わせることを推奨し、コミュニティは、追加のチャレンジセットと注釈付きテストデータの作成によって下流の計測をより実現可能にする努力を増すことを示唆する。
さらに、コード、新しい本質的なメトリクス、hatspeechのジェンダーバイアスのための注釈付きテストセットをリリースしました。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language
Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。
我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。
我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文 参考訳(メタデータ) (2023-05-22T06:28:48Z) - Choose Your Lenses: Flaws in Gender Bias Evaluation [29.16221451643288]
ジェンダーバイアス評価の現在のパラダイムを評価し、その中のいくつかの欠陥を同定する。
まず、あるタスクにおけるモデルのパフォーマンスがジェンダーによってどのように影響を受けるかを測定する、外在バイアス指標の重要性を強調する。
第二に、データセットとメトリクスが頻繁に結合されていることを発見し、それらの結合がいかにして信頼できる結論を得る能力を妨げているかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T17:59:55Z) - How Gender Debiasing Affects Internal Model Representations, and Why It
Matters [26.993273464725995]
内因性バイアスは、標準のWEAT測定値よりもデバイアスの指標として優れていることを示す。
当社のフレームワークは,NLPモデルのバイアスを包括的に把握し,より情報のある方法でNLPシステムのデプロイに適用することができる。
論文 参考訳(メタデータ) (2022-04-14T08:54:15Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Information-Theoretic Bias Reduction via Causal View of Spurious
Correlation [71.9123886505321]
本稿では,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。
本稿では,バイアス正規化損失を含むアルゴリズムバイアスに対する新しいデバイアスフレームワークを提案する。
提案したバイアス測定とデバイアス法は、多様な現実シナリオで検証される。
論文 参考訳(メタデータ) (2022-01-10T01:19:31Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - Evaluating Metrics for Bias in Word Embeddings [64.55554083622258]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。