論文の概要: On the interpretation and significance of bias metrics in texts: a
PMI-based approach
- arxiv url: http://arxiv.org/abs/2104.06474v1
- Date: Tue, 13 Apr 2021 19:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 02:50:40.701180
- Title: On the interpretation and significance of bias metrics in texts: a
PMI-based approach
- Title(参考訳): テキストにおけるバイアスメトリクスの解釈と意義について--PMIに基づくアプローチ
- Authors: Francisco Valentini, Germ\'an Rosati, Dami\'an Blasi, Diego Fernandez
Slezak, and Edgar Altszyler
- Abstract要約: テキスト中のバイアスを定量化するPMIベースのメトリックを提案する。
この計量は奇数比で近似できることを示す。
また、このPMIに基づく測度は、条件付き確率の関数として表現できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the use of word embeddings has become popular to measure the
presence of biases in texts. Despite the fact that these measures have been
shown to be effective in detecting a wide variety of biases, metrics based on
word embeddings lack transparency, explainability and interpretability. In this
study, we propose a PMI-based metric to quantify biases in texts. We show that
this metric can be approximated by an odds ratio, which allows estimating the
confidence interval and statistical significance of textual bias. We also show
that this PMI-based measure can be expressed as a function of conditional
probabilities, providing a simple interpretation in terms of word
co-occurrences. Our approach produces a performance comparable to GloVe-based
and Skip-gram-based metrics in experiments of gender-occupation and gender-name
associations. We discuss the advantages and disadvantages of using methods
based on first-order vs second-order co-occurrences, from the point of view of
the interpretability of the metric and the sparseness of the data.
- Abstract(参考訳): 近年、テキストにおけるバイアスの存在を測定するために、単語埋め込みの使用が一般的になっている。
これらの尺度が様々なバイアスを検出するのに有効であることが示されているにもかかわらず、単語の埋め込みに基づくメトリクスは透明性、説明可能性、解釈可能性に欠ける。
本研究では,テキスト中のバイアスを定量化するPMIに基づくメトリクスを提案する。
この計量はオッズ比で近似できるので, 信頼区間の推定や, テキストバイアスの統計的意義を推定できる。
また、このPMIに基づく測度は条件付き確率の関数として表現できることを示し、単語共起の観点で簡単な解釈を提供する。
本手法は,ジェンダー占有とジェンダー名関連の実験において,GloVeとSkip-gramに匹敵する性能を示す。
本稿では,計量の解釈可能性とデータのスパース性の観点から,一階と二階の共起に基づく手法の長所と短所を考察する。
関連論文リスト
- Analyzing Correlations Between Intrinsic and Extrinsic Bias Metrics of Static Word Embeddings With Their Measuring Biases Aligned [8.673018064714547]
本研究では,自然言語処理(NLP)システムがバイアス行動を示すかどうかを予測するために,静的単語埋め込みの固有バイアス指標の有用性について検討する。
単語埋め込みは、実際のベクトルを通して単語の意味を表現する基本的なNLP技術の1つであり、問題として、ステレオタイプのような社会的バイアスも学習する。
論文 参考訳(メタデータ) (2024-09-14T02:13:56Z) - Exploring the Correlation between Human and Machine Evaluation of Simultaneous Speech Translation [0.9576327614980397]
本研究では,人間の評価と相関関係を解析することにより,同時解釈評価における自動メトリクスの信頼性を評価することを目的とする。
ベンチマークでは,言語専門家による人間の評価を用いて,文の埋め込みと大規模言語モデルとの相関性を評価する。
その結果, GPTモデル, 特に直接的プロンプトを用いた GPT-3.5 は, ソーステキストとターゲットテキストのセマンティックな類似性の観点から, 人間の判断と最強の相関を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-14T14:47:19Z) - COBIAS: Contextual Reliability in Bias Assessment [14.594920595573038]
大規模言語モデル(LLM)は、トレーニング対象のWebデータからバイアスを受け取り、ステレオタイプや偏見を含むことが多い。
これらのバイアスを評価し緩和するための現在の手法はバイアスベンチマークデータセットに依存している。
本稿では,モデルが現れる可能性のあるさまざまなコンテキストを考慮し,モデルロバスト性を偏りのある文に評価するコンテキスト信頼性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T10:46:11Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Evaluating Metrics for Bias in Word Embeddings [44.14639209617701]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Assessing the Reliability of Word Embedding Gender Bias Measures [4.258396452892244]
我々は,単語埋め込み性バイアス尺度の3種類の信頼性,すなわち,テスト-再テストの信頼性,相互整合性,内部整合性を評価する。
以上の結果から,単語埋め込み性バイアス尺度のより良い設計が示唆された。
論文 参考訳(メタデータ) (2021-09-10T08:23:50Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - On the Relation between Quality-Diversity Evaluation and
Distribution-Fitting Goal in Text Generation [86.11292297348622]
本研究では, 品質と多様性の線形結合が, 生成した分布と実分布との分岐距離を構成することを示す。
品質/多様性メトリックペアの代替としてCR/NRRを提案する。
論文 参考訳(メタデータ) (2020-07-03T04:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。