論文の概要: FairPy: A Toolkit for Evaluation of Prediction Biases and their Mitigation in Large Language Models
- arxiv url: http://arxiv.org/abs/2302.05508v2
- Date: Tue, 15 Apr 2025 04:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:08:58.567727
- Title: FairPy: A Toolkit for Evaluation of Prediction Biases and their Mitigation in Large Language Models
- Title(参考訳): FairPy:大規模言語モデルにおける予測バイアスの評価と緩和のためのツールキット
- Authors: Hrishikesh Viswanath, Tianyi Zhang,
- Abstract要約: 近年,BERT や GPT-2 のような大規模事前学習言語モデル (LLM) がトークン予測のバイアスを示すことが実証されている。
本稿では, BERT や GPT-2 など, 広く使用されている LLM に適した技術について概説する。
また、Fairpyは、これらの数学的ツールを統合するためのプラグアンドプレイインターフェースを提供するモジュラーおよびツールキットである。
- 参考スコア(独自算出の注目度): 12.62204775625353
- License:
- Abstract: Recent studies have demonstrated that large pretrained language models (LLMs) such as BERT and GPT-2 exhibit biases in token prediction, often inherited from the data distributions present in their training corpora. In response, a number of mathematical frameworks have been proposed to quantify, identify, and mitigate these the likelihood of biased token predictions. In this paper, we present a comprehensive survey of such techniques tailored towards widely used LLMs such as BERT, GPT-2, etc. We additionally introduce Fairpy, a modular and extensible toolkit that provides plug-and-play interfaces for integrating these mathematical tools, enabling users to evaluate both pretrained and custom language models. Fairpy supports the implementation of existing debiasing algorithms. The toolkit is open-source and publicly available at: \href{https://github.com/HrishikeshVish/Fairpy}{https://github.com/HrishikeshVish/Fairpy}
- Abstract(参考訳): 近年の研究では、BERTやGPT-2のような大規模事前学習言語モデル(LLM)がトークン予測のバイアスを示しており、しばしばトレーニングコーパスに存在するデータ分布から受け継がれていることが示されている。
これに対し、バイアス付きトークン予測の可能性を定量化し、特定し、緩和するために、いくつかの数学的枠組みが提案されている。
本稿では, BERT や GPT-2 など, 広く使用されている LLM に適した技術について, 包括的調査を行った。
また、Fairpyはモジュラーで拡張可能なツールキットで、これらの数学的ツールを統合するためのプラグアンドプレイインターフェースを提供し、ユーザーが事前訓練された言語モデルとカスタム言語モデルの両方を評価することができる。
Fairpyは既存のデバイアスアルゴリズムの実装をサポートする。
ツールキットはオープンソースで公開されている。 \href{https://github.com/HrishikeshVish/Fairpy}{https://github.com/HrishikeshVish/Fairpy}
関連論文リスト
- Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - FineDeb: A Debiasing Framework for Language Models [3.7698299781999376]
言語モデルのための2相脱バイアスフレームワークであるFineDebを提案する。
以上の結果から,FinDebは他の方法と比較してデバイアスが強いことが示唆された。
我々のフレームワークは、複数のクラスを持つ人口層に対して一般化可能である。
論文 参考訳(メタデータ) (2023-02-05T18:35:21Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - MRCLens: an MRC Dataset Bias Detection Toolkit [82.44296974850639]
MRCLensは,ユーザがフルモデルをトレーニングする前に,バイアスが存在するかどうかを検出するツールキットである。
ツールキットの導入の便宜のために,MDCにおける共通バイアスの分類も提供する。
論文 参考訳(メタデータ) (2022-07-18T21:05:39Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。