論文の概要: Social Bias Probing: Fairness Benchmarking for Language Models
- arxiv url: http://arxiv.org/abs/2311.09090v1
- Date: Wed, 15 Nov 2023 16:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:21:11.577549
- Title: Social Bias Probing: Fairness Benchmarking for Language Models
- Title(参考訳): 社会的バイアス調査: 言語モデルの公平性ベンチマーク
- Authors: Marta Marchiori Manerba, Karolina Sta\'nczak, Riccardo Guidotti,
Isabelle Augenstein
- Abstract要約: 本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
- 参考スコア(独自算出の注目度): 48.5644008956526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have been shown to encode a variety of social biases,
which carries the risk of downstream harms. While the impact of these biases
has been recognized, prior methods for bias evaluation have been limited to
binary association tests on small datasets, offering a constrained view of the
nature of societal biases within language models. In this paper, we propose an
original framework for probing language models for societal biases. We collect
a probing dataset to analyze language models' general associations, as well as
along the axes of societal categories, identities, and stereotypes. To this
end, we leverage a novel perplexity-based fairness score. We curate a
large-scale benchmarking dataset addressing drawbacks and limitations of
existing fairness collections, expanding to a variety of different identities
and stereotypes. When comparing our methodology with prior work, we demonstrate
that biases within language models are more nuanced than previously
acknowledged. In agreement with recent findings, we find that larger model
variants exhibit a higher degree of bias. Moreover, we expose how identities
expressing different religions lead to the most pronounced disparate treatments
across all models.
- Abstract(参考訳): 大規模言語モデルは、下流の危害のリスクを負う様々な社会バイアスを符号化することが示されている。
これらのバイアスの影響は認識されているが、以前のバイアス評価手法は小さなデータセット上でのバイナリアソシエーションテストに限られており、言語モデルにおける社会的バイアスの性質の制約されたビューを提供する。
本稿では,社会バイアスに対する言語モデル探索のためのフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
この目的のために、我々は新しいパープレキシティに基づくフェアネススコアを利用する。
我々は、既存のフェアネスコレクションの欠点や制限に対処する大規模なベンチマークデータセットをキュレートし、さまざまなアイデンティティやステレオタイプに拡張する。
我々の方法論を先行研究と比較すると、言語モデル内のバイアスは以前認められたよりもニュアンスが強いことが分かる。
最近の研究結果と一致して、より大きなモデル変種はより高いバイアスを示すことが判明した。
さらに,異なる宗教を表わすアイデンティティが,どのモデルにおいても最も明瞭な異質な治療につながることを明らかにする。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI [17.101569078791492]
43のCLIP視覚言語モデルを用いて、人間の顔の印象バイアスを学習するかどうかを検証した。
社会全体でバイアスが共有される度合いがCLIPモデルに反映される度合いを予測するのはこれが初めてである。
論文 参考訳(メタデータ) (2024-08-04T08:26:58Z) - Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models [10.73340009530019]
本研究は,Large Language Models (LLMs) における2つのバイアス,代表バイアスと親和性バイアスに対処する。
我々は,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を導入する。
我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。
親和性バイアスによる各モデルにおける特徴的評価パターンの解明
論文 参考訳(メタデータ) (2024-05-23T13:35:34Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - The Tail Wagging the Dog: Dataset Construction Biases of Social Bias
Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。
これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文 参考訳(メタデータ) (2022-10-18T17:58:39Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。