論文の概要: On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations
- arxiv url: http://arxiv.org/abs/2203.13928v1
- Date: Fri, 25 Mar 2022 22:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:11:38.580517
- Title: On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations
- Title(参考訳): 文脈化言語表現における内在的・外在的公平性評価指標について
- Authors: Yang Trista Cao and Yada Pruksachatkun and Kai-Wei Chang and Rahul
Gupta and Varun Kumar and Jwala Dhamala and Aram Galstyan
- Abstract要約: 様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
- 参考スコア(独自算出の注目度): 74.70957445600936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple metrics have been introduced to measure fairness in various natural
language processing tasks. These metrics can be roughly categorized into two
categories: 1) \emph{extrinsic metrics} for evaluating fairness in downstream
applications and 2) \emph{intrinsic metrics} for estimating fairness in
upstream contextualized language representation models. In this paper, we
conduct an extensive correlation study between intrinsic and extrinsic metrics
across bias notions using 19 contextualized language models. We find that
intrinsic and extrinsic metrics do not necessarily correlate in their original
setting, even when correcting for metric misalignments, noise in evaluation
datasets, and confounding factors such as experiment configuration for
extrinsic metrics. %al
- Abstract(参考訳): 様々な自然言語処理タスクの公平性を測定するために、複数のメトリクスが導入された。
これらのメトリクスは、大まかに2つのカテゴリに分類できる。
1)ダウンストリームアプリケーションにおける公平性評価のための \emph{exrinsic metrics}
2) 上流の文脈化言語表現モデルにおける公平性を推定するためのemph{inrinsic metrics}。
本稿では,19の文脈化言語モデルを用いて,バイアス概念にまたがる内在的指標と外在的指標の相関関係について検討する。
評価データセットにおけるノイズの補正や,実験構成などの要因の統合においても,本質的および極端的メトリクスは元の設定と必ずしも相関しないことがわかった。
%であった。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。
この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。
我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文 参考訳(メタデータ) (2023-11-06T18:59:01Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Visual Referential Games Further the Emergence of Disentangled
Representations [0.12891210250935145]
本稿では,新興言語のレベルにおける構成性,学習された表現のレベルにおける絡み合い,そして視覚的参照ゲームの文脈における体系性が相互に関連しているかを検討する。
論文 参考訳(メタデータ) (2023-04-27T20:00:51Z) - Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文 参考訳(メタデータ) (2022-11-29T14:47:07Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - LCEval: Learned Composite Metric for Caption Evaluation [37.2313913156926]
ニューラルネットワークに基づく学習指標を提案し,キャプションレベルのキャプション評価を改善する。
本稿では,異なる言語特徴と学習指標のキャプションレベルの相関関係について検討する。
提案手法は,キャプションレベルの相関で既存の指標を上回るだけでなく,人間評価に対するシステムレベルの相関性も示している。
論文 参考訳(メタデータ) (2020-12-24T06:38:24Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。