論文の概要: "I'm sorry to hear that": finding bias in language models with a
holistic descriptor dataset
- arxiv url: http://arxiv.org/abs/2205.09209v1
- Date: Wed, 18 May 2022 20:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 11:04:49.527330
- Title: "I'm sorry to hear that": finding bias in language models with a
holistic descriptor dataset
- Title(参考訳): 「申し訳ありません」:全体論的記述データセットを用いた言語モデルにおけるバイアスを見つける
- Authors: Eric Michael Smith, Melissa Hall Melanie Kambadur, Eleonora Presani,
Adina Williams (Meta AI)
- Abstract要約: HOLISTICBIASという,13の異なる人口層にまたがる600近い記述項からなる,より包括的なデータセットを新たに提示する。
我々のデータセットは、トークンの確率や、言語モデルからの世代、および攻撃性において、計測不能なバイアスを非常に効果的に測定していることを示します。
- 参考スコア(独自算出の注目度): 2.464948034730255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As language models grow in popularity, their biases across all possible
markers of demographic identity should be measured and addressed in order to
avoid perpetuating existing societal harms. Many datasets for measuring bias
currently exist, but they are restricted in their coverage of demographic axes,
and are commonly used with preset bias tests that presuppose which types of
biases the models exhibit. In this work, we present a new, more inclusive
dataset, HOLISTICBIAS, which consists of nearly 600 descriptor terms across 13
different demographic axes. HOLISTICBIAS was assembled in conversation with
experts and community members with lived experience through a participatory
process. We use these descriptors combinatorially in a set of bias measurement
templates to produce over 450,000 unique sentence prompts, and we use these
prompts to explore, identify, and reduce novel forms of bias in several
generative models. We demonstrate that our dataset is highly efficacious for
measuring previously unmeasurable biases in token likelihoods and generations
from language models, as well as in an offensiveness classifier. We will invite
additions and amendments to the dataset, and we hope it will help serve as a
basis for easy-to-use and more standardized methods for evaluating bias in NLP
models.
- Abstract(参考訳): 言語モデルの人気が高まるにつれて、既存の社会的危害の持続を避けるために、人口統計学的アイデンティティの可能なすべての指標に対するバイアスを計測し、対処すべきである。
現在、バイアスを測定するためのデータセットは数多く存在するが、人口統計学的な軸の範囲内で制限されており、モデルが示すバイアスの種類を前提とした事前設定されたバイアステストで一般的に使用される。
本研究では,13の異なる人口軸にまたがる600近い記述項からなる新たな包括的データセットHOLISTICBIASを提案する。
HOLISTICBIASは,参加プロセスを通じて生活経験のある専門家やコミュニティメンバーと会話した。
我々は、これらの記述子を一連のバイアス測定テンプレートで組み合わせて45万以上のユニークな文プロンプトを生成し、これらのプロンプトを使用して、複数の生成モデルにおける新しいバイアスの形式を探索、同定、縮小する。
当社のデータセットは,これまで測定できなかったバイアスを,言語モデルや攻撃性分類器で測定する上で,非常に有効であることを実証する。
データセットの追加と修正を招待し、NLPモデルのバイアスを評価するための、使いやすくより標準化された方法の基礎として役立てることを願っています。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - MultiModal Bias: Introducing a Framework for Stereotypical Bias
Assessment beyond Gender and Race in Vision Language Models [40.12132844347926]
MMBiasと呼ばれる視覚的およびテキスト的バイアスベンチマークを提供し、約3,800の画像と14のサブグループをカバーするフレーズからなる。
このデータセットを用いて、CLIP、ALBEF、VLTを含むいくつかの著名な自己監督型マルチモーダルモデルにおけるバイアスを評価する。
バイアスを緩和するための後処理ステップとして適用可能な,大規模な事前学習モデルに特化して設計されたデバイアス処理手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:36:37Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。