論文の概要: "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset
- arxiv url: http://arxiv.org/abs/2205.09209v2
- Date: Thu, 27 Oct 2022 21:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 17:03:47.647164
- Title: "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset
- Title(参考訳): 「申し訳ありません」:ホロスティックな記述子データセットを用いた言語モデルの新しいバイアスを見つける
- Authors: Eric Michael Smith, Melissa Hall, Melanie Kambadur, Eleonora Presani,
Adina Williams
- Abstract要約: 新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
- 参考スコア(独自算出の注目度): 12.000335510088648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As language models grow in popularity, it becomes increasingly important to
clearly measure all possible markers of demographic identity in order to avoid
perpetuating existing societal harms. Many datasets for measuring bias
currently exist, but they are restricted in their coverage of demographic axes
and are commonly used with preset bias tests that presuppose which types of
biases models can exhibit. In this work, we present a new, more inclusive bias
measurement dataset, HolisticBias, which includes nearly 600 descriptor terms
across 13 different demographic axes. HolisticBias was assembled in a
participatory process including experts and community members with lived
experience of these terms. These descriptors combine with a set of bias
measurement templates to produce over 450,000 unique sentence prompts, which we
use to explore, identify, and reduce novel forms of bias in several generative
models. We demonstrate that HolisticBias is effective at measuring previously
undetectable biases in token likelihoods from language models, as well as in an
offensiveness classifier. We will invite additions and amendments to the
dataset, which we hope will serve as a basis for more easy-to-use and
standardized methods for evaluating bias in NLP models.
- Abstract(参考訳): 言語モデルの人気が高まるにつれて、既存の社会的害を避けるために、人口統計学的アイデンティティーの可能なマーカーをすべて明確に測定することがますます重要になる。
現在、バイアスを測定するためのデータセットは数多く存在するが、人口統計学的な軸のカバレッジに制限があり、バイアスモデルの種類を前提とした事前設定されたバイアステストで一般的に使用されている。
本研究では,13の異なる人口軸にまたがる600近い記述項を含む,より包括的なバイアス測定データセットであるHolisticBiasを提案する。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
これらの記述子は、一連のバイアス測定テンプレートと組み合わせて45万以上のユニークな文プロンプトを生成します。
我々は,HolisticBiasが,言語モデルや攻撃性分類器から検出不能なトークンのバイアスを測定するのに有効であることを実証した。
私たちはデータセットの追加と修正を招待します。nlpモデルのバイアスを評価するための、より使いやすく標準化された方法の基礎として役立つことを願っています。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Exposing Bias in Online Communities through Large-Scale Language Models [3.04585143845864]
この研究は、言語モデルにおけるバイアスの欠陥を使用して、6つの異なるオンラインコミュニティのバイアスを調査します。
得られたモデルのバイアスは、異なる人口層を持つモデルに促し、これらの世代における感情と毒性の値を比較することで評価される。
この作業は、トレーニングデータからバイアスがどの程度容易に吸収されるかを確認するだけでなく、さまざまなデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
論文 参考訳(メタデータ) (2023-06-04T08:09:26Z) - MultiModal Bias: Introducing a Framework for Stereotypical Bias
Assessment beyond Gender and Race in Vision Language Models [40.12132844347926]
MMBiasと呼ばれる視覚的およびテキスト的バイアスベンチマークを提供し、約3,800の画像と14のサブグループをカバーするフレーズからなる。
このデータセットを用いて、CLIP、ALBEF、VLTを含むいくつかの著名な自己監督型マルチモーダルモデルにおけるバイアスを評価する。
バイアスを緩和するための後処理ステップとして適用可能な,大規模な事前学習モデルに特化して設計されたデバイアス処理手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:36:37Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。