論文の概要: Evaluating Metrics for Bias in Word Embeddings
- arxiv url: http://arxiv.org/abs/2111.07864v2
- Date: Thu, 12 Sep 2024 08:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 22:57:37.153270
- Title: Evaluating Metrics for Bias in Word Embeddings
- Title(参考訳): 単語埋め込みにおけるバイアス指標の評価
- Authors: Sarah Schröder, Alexander Schulz, Philip Kenneweg, Robert Feldhans, Fabian Hinder, Barbara Hammer,
- Abstract要約: 我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
- 参考スコア(独自算出の注目度): 44.14639209617701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last years, word and sentence embeddings have established as text preprocessing for all kinds of NLP tasks and improved the performances significantly. Unfortunately, it has also been shown that these embeddings inherit various kinds of biases from the training data and thereby pass on biases present in society to NLP solutions. Many papers attempted to quantify bias in word or sentence embeddings to evaluate debiasing methods or compare different embedding models, usually with cosine-based metrics. However, lately some works have raised doubts about these metrics showing that even though such metrics report low biases, other tests still show biases. In fact, there is a great variety of bias metrics or tests proposed in the literature without any consensus on the optimal solutions. Yet we lack works that evaluate bias metrics on a theoretical level or elaborate the advantages and disadvantages of different bias metrics. In this work, we will explore different cosine based bias metrics. We formalize a bias definition based on the ideas from previous works and derive conditions for bias metrics. Furthermore, we thoroughly investigate the existing cosine-based metrics and their limitations to show why these metrics can fail to report biases in some cases. Finally, we propose a new metric, SAME, to address the shortcomings of existing metrics and mathematically prove that SAME behaves appropriately.
- Abstract(参考訳): 近年,あらゆる種類のNLPタスクのテキスト前処理として単語と文の埋め込みが確立され,性能が大幅に向上した。
残念ながら、これらの埋め込みはトレーニングデータから様々な種類のバイアスを継承し、社会に存在するバイアスをNLPソリューションに渡すことも示されている。
多くの論文は、単語や文の埋め込みにおけるバイアスを定量化し、デバイアス法を評価したり、異なる埋め込みモデル(通常はコサインに基づくメトリクス)を比較しようとした。
しかし、最近はこれらの指標に疑問を呈する研究があるが、そのような指標はバイアスが少ないと報告しているが、他のテストはバイアスを示さない。
実際、最適解に関するコンセンサスのない文献で提案されたバイアスメトリクスやテストは、非常に多様である。
しかし、理論的レベルでバイアスメトリクスを評価する作業や、異なるバイアスメトリクスの利点とデメリットを精査する作業は欠如しています。
この研究では、異なるコサインベースのバイアスメトリクスについて検討する。
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
さらに、既存のコサインベースのメトリクスとその制限を徹底的に調査し、なぜこれらのメトリクスがバイアスを報告できないのかを示す。
最後に,既存の指標の欠点に対処し,数学的にオッズが適切に振る舞うことを証明するため,新しい計量であるテッズを提案する。
関連論文リスト
- Analyzing Correlations Between Intrinsic and Extrinsic Bias Metrics of Static Word Embeddings With Their Measuring Biases Aligned [8.673018064714547]
本研究では,自然言語処理(NLP)システムがバイアス行動を示すかどうかを予測するために,静的単語埋め込みの固有バイアス指標の有用性について検討する。
単語埋め込みは、実際のベクトルを通して単語の意味を表現する基本的なNLP技術の1つであり、問題として、ステレオタイプのような社会的バイアスも学習する。
論文 参考訳(メタデータ) (2024-09-14T02:13:56Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Semantic Properties of cosine based bias scores for word embeddings [48.0753688775574]
本稿では,バイアスの定量化に有効なバイアススコアの要件を提案する。
これらの要件について,コサインに基づくスコアを文献から分析する。
これらの結果は、バイアススコアの制限がアプリケーションケースに影響を及ぼすことを示す実験で裏付けられている。
論文 参考訳(メタデータ) (2024-01-27T20:31:10Z) - Choose Your Lenses: Flaws in Gender Bias Evaluation [29.16221451643288]
ジェンダーバイアス評価の現在のパラダイムを評価し、その中のいくつかの欠陥を同定する。
まず、あるタスクにおけるモデルのパフォーマンスがジェンダーによってどのように影響を受けるかを測定する、外在バイアス指標の重要性を強調する。
第二に、データセットとメトリクスが頻繁に結合されていることを発見し、それらの結合がいかにして信頼できる結論を得る能力を妨げているかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T17:59:55Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Information-Theoretic Bias Reduction via Causal View of Spurious
Correlation [71.9123886505321]
本稿では,スプリアス相関の因果的解釈による情報理論バイアス測定手法を提案する。
本稿では,バイアス正規化損失を含むアルゴリズムバイアスに対する新しいデバイアスフレームワークを提案する。
提案したバイアス測定とデバイアス法は、多様な現実シナリオで検証される。
論文 参考訳(メタデータ) (2022-01-10T01:19:31Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - Intrinsic Bias Metrics Do Not Correlate with Application Bias [12.588713044749179]
本研究は, 測定容易な内在的指標が実世界の外在的指標とよく相関するかどうかを検討する。
異なるタスクと実験条件をカバーする数百のトレーニングモデルに対して,内在バイアスと外部バイアスの両方を測定した。
埋め込みスペースのデビア化の取り組みは、常に下流モデルバイアスの測定とペアリングされることを推奨し、追加のチャレンジセットと注釈付きテストデータの作成を通じて下流測定をより実現可能にするためのコミュニティの努力を高めることを提案します。
論文 参考訳(メタデータ) (2020-12-31T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。