論文の概要: Bipol: Multi-axes Evaluation of Bias with Explainability in Benchmark
Datasets
- arxiv url: http://arxiv.org/abs/2301.12139v3
- Date: Sat, 16 Sep 2023 15:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:47:42.385991
- Title: Bipol: Multi-axes Evaluation of Bias with Explainability in Benchmark
Datasets
- Title(参考訳): Bipol:ベンチマークデータセットで説明可能なバイアスのマルチアックス評価
- Authors: Tosin Adewumi, Isabella S\"odergren, Lama Alkhaled, Sana Sabah Sabry,
Foteini Liwicki and Marcus Liwicki
- Abstract要約: 複数の軸に沿った5つの英語NLPベンチマークデータセットと2つのスウェーデンのバイアスデータセットを調査した。
これらのデータセットにどの程度のバイアスが存在するかを推定し、説明するために、説明可能性を備えた新しい多軸バイアスメトリクスであるbipolを使用します。
- 参考スコア(独自算出の注目度): 1.7417978715317002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate five English NLP benchmark datasets (on the superGLUE
leaderboard) and two Swedish datasets for bias, along multiple axes. The
datasets are the following: Boolean Question (Boolq), CommitmentBank (CB),
Winograd Schema Challenge (WSC), Wino-gender diagnostic (AXg), Recognising
Textual Entailment (RTE), Swedish CB, and SWEDN. Bias can be harmful and it is
known to be common in data, which ML models learn from. In order to mitigate
bias in data, it is crucial to be able to estimate it objectively. We use
bipol, a novel multi-axes bias metric with explainability, to estimate and
explain how much bias exists in these datasets. Multilingual, multi-axes bias
evaluation is not very common. Hence, we also contribute a new, large Swedish
bias-labelled dataset (of 2 million samples), translated from the English
version and train the SotA mT5 model on it. In addition, we contribute new
multi-axes lexica for bias detection in Swedish. We make the codes, model, and
new dataset publicly available.
- Abstract(参考訳): スウェーデンの5つのNLPベンチマークデータセット(スーパーGLUEリーダーボード)と2つのスウェーデンのデータセットを複数の軸に沿って検討する。
データセットは、Boolean Question (Boolq)、CommitmentBank (CB)、Winograd Schema Challenge (WSC)、Wino-gender diagnosis (AXg)、Recognising Textual Entailment (RTE)、スウェーデンのCB、SWEDNである。
バイアスは有害であり、MLモデルが学習するデータに共通していることが知られている。
データのバイアスを軽減するためには,それを客観的に見積もることが不可欠である。
説明可能性を持つ新しい多軸バイアスメトリックであるbipolを使用して、これらのデータセットにどの程度のバイアスが存在するかを推定し、説明します。
多言語多軸バイアス評価はあまり一般的ではない。
したがって、私たちはまた、英語バージョンから翻訳され、それ上にsoma mt5モデルをトレーニングした、スウェーデンのバイアスラベル付きデータセット(200万サンプル)を新たに提供します。
さらに,スウェーデン語で新たに多軸レキシカを用いてバイアス検出を行った。
コード、モデル、新しいデータセットを公開しています。
関連論文リスト
- Mapping Bias in Vision Language Models: Signposts, Pitfalls, and the Road Ahead [1.3995965887921709]
5つのモデルと6つのデータセットの人口統計バイアスを分析します。
UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。
より厳格な評価のために、より難しいバージョンのVisoGenderを紹介します。
論文 参考訳(メタデータ) (2024-10-17T02:03:27Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Data Bias According to Bipol: Men are Naturally Right and It is the Role of Women to Follow Their Lead [0.48163317476588574]
英語のGLUE/SuperGLUEリーダーボードのベンチマークデータセットを含む,評価された5つの言語の10のデータセットすべてにバイアスが存在することを示す。
3つの新しい言語は、合計600万のラベル付きサンプルを与え、SotAの多言語事前トレーニングモデルであるmT5とmBERTを使ってこれらのデータセットをベンチマークします。
論文 参考訳(メタデータ) (2024-04-07T07:24:45Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Keeping Up with the Language Models: Systematic Benchmark Extension for Bias Auditing [33.25539075550122]
我々は, LM生成語彙変動, 逆フィルタリング, 人間の検証を組み合わせることで, 既存のNLIのバイアスベンチマークを拡張した。
BBNLI-nextは最先端のNLIモデルの精度を95.3%から57.5%に下げることを示した。
バイアスとモデル脆性の両方を考慮したバイアス対策を提案する。
論文 参考訳(メタデータ) (2023-05-22T01:02:45Z) - Bipol: A Novel Multi-Axes Bias Evaluation Metric with Explainability for
NLP [0.276240219662896]
テキストデータの社会的バイアスを推定するための説明可能性を持つ新しい指標であるbipolを導入する。
この課題に取り組むためのステップとして、2段階のプロセスを含む新しいメトリクスを作成します。
私たちはバイアス検出のモデルをトレーニングするための大規模なデータセットを作成し、それを公開しています。
論文 参考訳(メタデータ) (2023-04-08T14:45:15Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。