論文の概要: Bipol: Multi-axes Evaluation of Bias with Explainability in Benchmark
Datasets
- arxiv url: http://arxiv.org/abs/2301.12139v1
- Date: Sat, 28 Jan 2023 09:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:46:12.090693
- Title: Bipol: Multi-axes Evaluation of Bias with Explainability in Benchmark
Datasets
- Title(参考訳): Bipol:ベンチマークデータセットで説明可能なバイアスのマルチアックス評価
- Authors: Tosin Adewumi, Isabella S\"odergren, Lama Alkhaled, Sana Sabah Sabry,
Foteini Liwicki and Marcus Liwicki
- Abstract要約: 我々は、複数の軸に沿って5つの英語ベンチマークデータセットをバイアスとして評価する。
我々はまた、約200万のサンプルとともに、スウェーデンの大規模ラベル付きバイアス検出データセットを新たに提供しました。
- 参考スコア(独自算出の注目度): 1.2532400738980594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate five English NLP benchmark datasets (available on the superGLUE
leaderboard) for bias, along multiple axes. The datasets are the following:
Boolean Question (Boolq), CommitmentBank (CB), Winograd Schema Challenge (WSC),
Winogender diagnostic (AXg), and Recognising Textual Entailment (RTE). Bias can
be harmful and it is known to be common in data, which ML models learn from. In
order to mitigate bias in data, it is crucial to be able to estimate it
objectively. We use bipol, a novel multi-axes bias metric with explainability,
to quantify and explain how much bias exists in these datasets. Multilingual,
multi-axes bias evaluation is not very common. Hence, we also contribute a new,
large labelled Swedish bias-detection dataset, with about 2 million samples;
translated from the English version. In addition, we contribute new multi-axes
lexica for bias detection in Swedish. We train a SotA model on the new dataset
for bias detection. We make the codes, model, and new dataset publicly
available.
- Abstract(参考訳): 我々は、複数の軸に沿って5つの英語NLPベンチマークデータセット(SuperGLUEリーダーボードで利用可能)をバイアスとして評価する。
データセットは、Boolean Question (Boolq)、CommitmentBank (CB)、Winograd Schema Challenge (WSC)、Winogender Diagnostic (AXg)、Recognising Textual Entailment (RTE)である。
バイアスは有害であり、MLモデルが学習するデータに共通していることが知られている。
データのバイアスを軽減するためには,それを客観的に見積もることが不可欠である。
説明可能性を持つ新しい多軸バイアスメトリックであるbipolを使用して、これらのデータセットにどの程度のバイアスが存在するかを定量化し、説明します。
多言語多軸バイアス評価はあまり一般的ではない。
それゆえ,我々は,約200万のサンプルを含む,新たにラベル付きスウェーデンバイアス検出データセットを,英語版から翻訳した。
さらに,スウェーデン語で新たに多軸レキシカを用いてバイアス検出を行った。
バイアス検出のための新しいデータセットでSotAモデルをトレーニングする。
コード、モデル、新しいデータセットを公開しています。
関連論文リスト
- Mapping Bias in Vision Language Models: Signposts, Pitfalls, and the Road Ahead [1.3995965887921709]
5つのモデルと6つのデータセットの人口統計バイアスを分析します。
UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。
より厳格な評価のために、より難しいバージョンのVisoGenderを紹介します。
論文 参考訳(メタデータ) (2024-10-17T02:03:27Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Data Bias According to Bipol: Men are Naturally Right and It is the Role of Women to Follow Their Lead [0.48163317476588574]
英語のGLUE/SuperGLUEリーダーボードのベンチマークデータセットを含む,評価された5つの言語の10のデータセットすべてにバイアスが存在することを示す。
3つの新しい言語は、合計600万のラベル付きサンプルを与え、SotAの多言語事前トレーニングモデルであるmT5とmBERTを使ってこれらのデータセットをベンチマークします。
論文 参考訳(メタデータ) (2024-04-07T07:24:45Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Keeping Up with the Language Models: Systematic Benchmark Extension for Bias Auditing [33.25539075550122]
我々は, LM生成語彙変動, 逆フィルタリング, 人間の検証を組み合わせることで, 既存のNLIのバイアスベンチマークを拡張した。
BBNLI-nextは最先端のNLIモデルの精度を95.3%から57.5%に下げることを示した。
バイアスとモデル脆性の両方を考慮したバイアス対策を提案する。
論文 参考訳(メタデータ) (2023-05-22T01:02:45Z) - Bipol: A Novel Multi-Axes Bias Evaluation Metric with Explainability for
NLP [0.276240219662896]
テキストデータの社会的バイアスを推定するための説明可能性を持つ新しい指標であるbipolを導入する。
この課題に取り組むためのステップとして、2段階のプロセスを含む新しいメトリクスを作成します。
私たちはバイアス検出のモデルをトレーニングするための大規模なデータセットを作成し、それを公開しています。
論文 参考訳(メタデータ) (2023-04-08T14:45:15Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。