論文の概要: FairPy: A Toolkit for Evaluation of Social Biases and their Mitigation
in Large Language Models
- arxiv url: http://arxiv.org/abs/2302.05508v1
- Date: Fri, 10 Feb 2023 20:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 20:05:26.920355
- Title: FairPy: A Toolkit for Evaluation of Social Biases and their Mitigation
in Large Language Models
- Title(参考訳): FairPy:大規模言語モデルにおける社会的バイアスの評価と緩和のためのツールキット
- Authors: Hrishikesh Viswanath and Tianyi Zhang
- Abstract要約: 大規模な事前訓練された言語モデルは、人種、性別等に基づく社会集団に対する偏見を示すことが研究で示されている。
様々な研究者がこれらのバイアスを定量化し識別するための数学的ツールを提案している。
本稿では,人種,性別,民族,年齢など,さまざまなバイアスの包括的定量的評価を行う。
- 参考スコア(独自算出の注目度): 7.250074804839615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Studies have shown that large pretrained language models exhibit biases
against social groups based on race, gender etc, which they inherit from the
datasets they are trained on. Various researchers have proposed mathematical
tools for quantifying and identifying these biases. There have been methods
proposed to mitigate such biases. In this paper, we present a comprehensive
quantitative evaluation of different kinds of biases such as race, gender,
ethnicity, age etc. exhibited by popular pretrained language models such as
BERT, GPT-2 etc. and also present a toolkit that provides plug-and-play
interfaces to connect mathematical tools to identify biases with large
pretrained language models such as BERT, GPT-2 etc. and also present users with
the opportunity to test custom models against these metrics. The toolkit also
allows users to debias existing and custom models using the debiasing
techniques proposed so far. The toolkit is available at
https://github.com/HrishikeshVish/Fairpy.
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、彼らが訓練されたデータセットから受け継いだ人種、性別等に基づく社会グループに対するバイアスを示す。
様々な研究者がこれらのバイアスを定量化し識別するための数学的ツールを提案している。
このようなバイアスを軽減する方法が提案されている。
本稿では,bert,gpt-2などの一般的な事前学習言語モデルによって提示される,人種,性別,民族性,年齢等の異なる種類のバイアスの包括的定量的評価を行うとともに,bert,gpt-2などの大規模事前学習言語モデルとバイアスを識別する数学的ツールとを接続するプラグイン・アンド・プレイインターフェースを提供するとともに,これらのメトリクスに対してカスタムモデルをテストする機会を提供する。
このツールキットでは、これまで提案されていたデバイアステクニックを使用して、既存のモデルやカスタムモデルをデバイアスすることもできる。
ツールキットはhttps://github.com/HrishikeshVish/Fairpy.comで入手できる。
関連論文リスト
- Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - FineDeb: A Debiasing Framework for Language Models [3.7698299781999376]
言語モデルのための2相脱バイアスフレームワークであるFineDebを提案する。
以上の結果から,FinDebは他の方法と比較してデバイアスが強いことが示唆された。
我々のフレームワークは、複数のクラスを持つ人口層に対して一般化可能である。
論文 参考訳(メタデータ) (2023-02-05T18:35:21Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - MRCLens: an MRC Dataset Bias Detection Toolkit [82.44296974850639]
MRCLensは,ユーザがフルモデルをトレーニングする前に,バイアスが存在するかどうかを検出するツールキットである。
ツールキットの導入の便宜のために,MDCにおける共通バイアスの分類も提供する。
論文 参考訳(メタデータ) (2022-07-18T21:05:39Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。