論文の概要: A Bayesian approach to uncertainty in word embedding bias estimation
- arxiv url: http://arxiv.org/abs/2306.09066v1
- Date: Thu, 15 Jun 2023 11:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:04:42.061431
- Title: A Bayesian approach to uncertainty in word embedding bias estimation
- Title(参考訳): 単語埋め込みバイアス推定における不確実性に対するベイズ的アプローチ
- Authors: Alicja Dobrzeniecka and Rafal Urbaniak
- Abstract要約: WEAT や MAC のような複数の測度は、単語の埋め込みに存在するバイアスの大きさを1つの数字のメートル法で定量化しようとする。
このような手法を用いて、意図したバイアスを欠いたnullモデルによってデータが生成される場合でも、同様の結果が容易に得られることを示す。
単語埋め込みにおけるバイアスのより不確実性に敏感な検査を可能にする階層型ベイズモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multiple measures, such as WEAT or MAC, attempt to quantify the magnitude of
bias present in word embeddings in terms of a single-number metric. However,
such metrics and the related statistical significance calculations rely on
treating pre-averaged data as individual data points and employing
bootstrapping techniques with low sample sizes. We show that similar results
can be easily obtained using such methods even if the data are generated by a
null model lacking the intended bias. Consequently, we argue that this approach
generates false confidence. To address this issue, we propose a Bayesian
alternative: hierarchical Bayesian modeling, which enables a more
uncertainty-sensitive inspection of bias in word embeddings at different levels
of granularity. To showcase our method, we apply it to Religion, Gender, and
Race word lists from the original research, together with our control neutral
word lists. We deploy the method using Google, Glove, and Reddit embeddings.
Further, we utilize our approach to evaluate a debiasing technique applied to
Reddit word embedding. Our findings reveal a more complex landscape than
suggested by the proponents of single-number metrics. The datasets and source
code for the paper are publicly available.
- Abstract(参考訳): WEAT や MAC のような複数の測度は、単語の埋め込みに存在するバイアスの大きさを1つの数字のメートル法で定量化しようとする。
しかし、これらの測定値と関連する統計学的意義計算は、予め平均されたデータを個々のデータポイントとして扱い、サンプルサイズの低いブートストラップ技術を用いる。
このような方法では,データに意図したバイアスを欠いたヌルモデルが生成した場合でも,同様の結果が容易に得られることを示す。
したがって、このアプローチは偽の自信を生み出すと論じる。
この問題に対処するために,様々な粒度で単語埋め込みのバイアスをより不確実性に敏感な検査を可能にする階層ベイズモデリングを提案する。
提案手法を紹介するために,本手法を原研究の宗教,ジェンダー,レースの単語リストに適用し,中立語リストの制御を行う。
Google、Glove、Redditの埋め込みを使ってメソッドをデプロイします。
さらに,redditの単語埋め込みに適用するデバイアス手法を評価するために,提案手法を利用する。
以上の結果から,単数指標の提唱者より複雑な景観が示唆された。
論文のデータセットとソースコードが公開されている。
関連論文リスト
- Statistical Uncertainty in Word Embeddings: GloVe-V [35.04183792123882]
本稿では,GloVeの近似的,使いやすい,スケーラブルな再構成誤差分散推定手法を提案する。
分散を伴う埋め込み(GloVe-V)の価値を示すために,本手法がコアワード埋め込みタスクにおいて,原理的仮説テストを実現する方法について述べる。
論文 参考訳(メタデータ) (2024-06-18T00:35:02Z) - Debiasing Sentence Embedders through Contrastive Word Pairs [46.9044612783003]
NLP解に対する線形および非線形バイアス情報を除去する手法を検討する。
従来のバイアス指標と非線形情報を考慮に入れたバイアス指標の共通偏り評価手法との比較を行った。
論文 参考訳(メタデータ) (2024-03-27T13:34:59Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - MABEL: Attenuating Gender Bias using Textual Entailment Data [20.489427903240017]
我々は、文脈化表現における性別バイアスを軽減するための中間的事前学習手法であるMABELを提案する。
このアプローチの鍵となるのは、非現実的に強化されたジェンダーバランスのエンターメントペアに対して、対照的な学習目標を使用することである。
我々はMABELが従来のタスク非依存のデバイアスアプローチよりも公平性で優れていることを示す。
論文 参考訳(メタデータ) (2022-10-26T18:36:58Z) - Evaluating Metrics for Bias in Word Embeddings [44.14639209617701]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation [94.98656228690233]
本稿では,性別サブスペースの推測と削除に先立って,コーパス正規性に対する単語埋め込みを浄化する手法を提案する。
本手法は,事前学習した単語埋め込みの分布的意味を保ちつつ,性別バイアスを従来の手法よりもはるかに大きい程度に低減する。
論文 参考訳(メタデータ) (2020-05-03T02:33:20Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。