Fugu-MT 論文翻訳(概要): Social Bias Probing: Fairness Benchmarking for Language Models

論文の概要: Social Bias Probing: Fairness Benchmarking for Language Models

arxiv url: http://arxiv.org/abs/2311.09090v4
Date: Mon, 07 Oct 2024 16:01:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 03:49:24.735456
Title: Social Bias Probing: Fairness Benchmarking for Language Models
Title（参考訳）: Social Bias Probing: 言語モデルのフェアネスベンチマーク
Authors: Marta Marchiori Manerba, Karolina Stańczak, Riccardo Guidotti, Isabelle Augenstein,
Abstract要約: 本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
参考スコア（独自算出の注目度）: 38.180696489079985
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the impact of social biases in language models has been recognized, prior methods for bias evaluation have been limited to binary association tests on small datasets, limiting our understanding of bias complexities. This paper proposes a novel framework for probing language models for social biases by assessing disparate treatment, which involves treating individuals differently according to their affiliation with a sensitive demographic group. We curate SoFa, a large-scale benchmark designed to address the limitations of existing fairness collections. SoFa expands the analysis beyond the binary comparison of stereotypical versus anti-stereotypical identities to include a diverse range of identities and stereotypes. Comparing our methodology with existing benchmarks, we reveal that biases within language models are more nuanced than acknowledged, indicating a broader scope of encoded biases than previously recognized. Benchmarking LMs on SoFa, we expose how identities expressing different religions lead to the most pronounced disparate treatments across all models. Finally, our findings indicate that real-life adversities faced by various groups such as women and people with disabilities are mirrored in the behavior of these models.
Abstract（参考訳）: 言語モデルにおける社会的バイアスの影響は認識されているが、偏見評価の先行手法は、小さなデータセット上でのバイナリアソシエーションテストに限られており、偏見の複雑さに対する理解が制限されている。本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。 SoFaは、ステレオタイプとアンチステレオタイプIDのバイナリ比較を超えて分析を拡張し、多様なアイデンティティとステレオタイプを含む。提案手法を既存のベンチマークと比較したところ,言語モデル内のバイアスは認識されるよりもニュアンスが高いことが判明した。 SoFa上でのLMのベンチマークにより、異なる宗教を表現するアイデンティティが、すべてのモデルで最も顕著な異なる治療につながることを明らかにした。最後に,女性や障害者などの多様な集団が直面する現実の逆境が,これらのモデルの行動に反映されていることを示す。

関連論文リスト

Breaking the Benchmark: Revealing LLM Bias via Minimal Contextual Augmentation [12.56588481992456]
大規模言語モデルは、その表現と振舞いにステレオタイプ的バイアスを示すことが示されている。 3つのプラグ・アンド・プレイステップを含む,新規で汎用的な拡張フレームワークを提案する。大規模言語モデルは入力の摂動に影響を受けやすいことが分かり、ステレオタイプに振る舞う可能性が高くなる。
論文参考訳（メタデータ） (2025-10-27T23:05:12Z)
Investigating Intersectional Bias in Large Language Models using Confidence Disparities in Coreference Resolution [5.061421107401101]
大規模言語モデル(LLM)は目覚ましいパフォーマンスを達成し、採用や受け入れといったリソース制約のあるコンテキストで意思決定支援ツールとして広く採用されている。しかし、AIシステムは社会的バイアスを反映し、さらに悪化させることができるという科学的コンセンサスがあり、批判的な社会的文脈で使用される場合、アイデンティティに基づく害についての懸念が高まる。本研究では,複数の識別軸が交差する際,異なる不利パターンを生じることを認識して,一軸の公平性評価を拡張し,交差バイアスを検証した。
論文参考訳（メタデータ） (2025-08-09T22:24:40Z)
Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文参考訳（メタデータ） (2025-01-29T05:21:31Z)
Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets [17.101242741559428]
本稿では,言語モデルの固有バイアス緩和と測定戦略に焦点を当てる。我々は、本質的な測定を深く掘り下げ、矛盾を識別し、これらのベンチマークがジェンダーステレオタイプの違いを反映している可能性を示唆している。本研究は, 言語モデルにおけるジェンダーステレオタイピングの複雑さと, 偏見の検出・低減のための, より洗練された手法を開発するための新たな方向性を指摘するものである。
論文参考訳（メタデータ） (2025-01-02T09:40:31Z)
The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。 DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文参考訳（メタデータ） (2024-11-06T06:50:50Z)
Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文参考訳（メタデータ） (2024-08-15T15:23:00Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI [17.101569078791492]
43のCLIP視覚言語モデルを用いて、人間の顔の印象バイアスを学習するかどうかを検証した。社会全体でバイアスが共有される度合いがCLIPモデルに反映される度合いを予測するのはこれが初めてである。
論文参考訳（メタデータ） (2024-08-04T08:26:58Z)
Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models [10.73340009530019]
本研究は,Large Language Models (LLMs) における2つのバイアス,代表バイアスと親和性バイアスに対処する。我々は,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を導入する。我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。親和性バイアスによる各モデルにおける特徴的評価パターンの解明
論文参考訳（メタデータ） (2024-05-23T13:35:34Z)
Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文参考訳（メタデータ） (2024-03-14T15:58:36Z)
Evaluating Biased Attitude Associations of Language Models in an Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文参考訳（メタデータ） (2023-07-07T03:01:56Z)
The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks [75.58692290694452]
社会的偏見と、データセット構築時に選択された選択から生じる非社会的偏見を比較し、人間の目では識別できないかもしれない。これらの浅い修正は、様々なモデルにまたがるバイアスの程度に驚くべき影響を及ぼす。
論文参考訳（メタデータ） (2022-10-18T17:58:39Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。