論文の概要: Measuring Implicit Bias in Explicitly Unbiased Large Language Models
- arxiv url: http://arxiv.org/abs/2402.04105v1
- Date: Tue, 6 Feb 2024 15:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:04:22.762069
- Title: Measuring Implicit Bias in Explicitly Unbiased Large Language Models
- Title(参考訳): 偏りのない大言語モデルにおける暗黙的バイアスの測定
- Authors: Xuechunzi Bai, Angelina Wang, Ilia Sucholutsky, Thomas L. Griffiths
- Abstract要約: 心理学に触発されたバイアスの2つの尺度を導入する。
4つの社会的領域(人種、性別、宗教、健康)と21のカテゴリー(武器、罪悪感、科学、キャリアなど)にまたがる6つの大きな言語モデル(LLM)において、広範にヒトのようなステレオタイプバイアスがみられた。
- 参考スコア(独自算出の注目度): 15.599849157678461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can pass explicit bias tests but still harbor
implicit biases, similar to humans who endorse egalitarian beliefs yet exhibit
subtle biases. Measuring such implicit biases can be a challenge: as LLMs
become increasingly proprietary, it may not be possible to access their
embeddings and apply existing bias measures; furthermore, implicit biases are
primarily a concern if they affect the actual decisions that these systems
make. We address both of these challenges by introducing two measures of bias
inspired by psychology: LLM Implicit Association Test (IAT) Bias, which is a
prompt-based method for revealing implicit bias; and LLM Decision Bias for
detecting subtle discrimination in decision-making tasks. Using these measures,
we found pervasive human-like stereotype biases in 6 LLMs across 4 social
domains (race, gender, religion, health) and 21 categories (weapons, guilt,
science, career among others). Our prompt-based measure of implicit bias
correlates with embedding-based methods but better predicts downstream
behaviors measured by LLM Decision Bias. This measure is based on asking the
LLM to decide between individuals, motivated by psychological results
indicating that relative not absolute evaluations are more related to implicit
biases. Using prompt-based measures informed by psychology allows us to
effectively expose nuanced biases and subtle discrimination in proprietary LLMs
that do not show explicit bias on standard benchmarks.
- Abstract(参考訳): 大型言語モデル(LLM)は明示的なバイアステストに合格するが、それでも暗黙のバイアスを持つ。
このような暗黙のバイアスを測定することは、課題である: llmがますますプロプライエタリになるにつれて、それらの埋め込みにアクセスして既存のバイアス対策を適用することはできないかもしれない。
心理学に着想を得た2つのバイアス尺度:暗黙のバイアスを明らかにするための急進的手法であるLLM Implicit Association Test (IAT) Biasと、意思決定タスクにおける微妙な差別を検出するLLM Decision Biasである。
これらの指標を用いて,4つの社会的領域(人種,性別,宗教,健康)と21のカテゴリー(武器,罪悪感,科学,キャリアなど)の6つのLSMにおいて,ヒト様ステレオタイプバイアスが広まっていた。
暗黙バイアスの即時測定は埋め込みに基づく手法と相関するが,LLM決定バイアスによる下流の挙動の予測は良好である。
この尺度は、相対的な絶対的でない評価が暗黙の偏見とより関連していることを示す心理学的な結果によって動機づけられた個人の決定をLSMに依頼することに基づいている。
心理学に基づく素早い尺度を用いることで、標準ベンチマークで明示的なバイアスを示さないプロプライエタリなllmにおいて、ニュアンスバイアスや微妙な差別を効果的に露呈することができる。
関連論文リスト
- Cognitive Bias in High-Stakes Decision-Making with LLMs [21.322551161016463]
我々は,大規模言語モデル(LLM)における認知バイアスの発見,評価,緩和を目的としたフレームワークを開発する。
心理学と認知科学の先行研究に触発され、16,800のプロンプトを含むデータセットを開発し、異なる認知バイアスを評価する。
我々は,LSMを用いた新たな手法を提案する中で,様々なバイアス緩和策を検証した。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Navigating the Ocean of Biases: Political Bias Attribution in Language
Models via Causal Structures [58.059631072902356]
我々は、LLMの価値観を批判したり、検証したりせず、どのようにして「良い議論」を解釈し、偏見づけるかを見極めることを目的としている。
本研究では,活動依存ネットワーク(ADN)を用いてLCMの暗黙的基準を抽出する。
人-AIアライメントとバイアス緩和について,本研究の結果について考察した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and
Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的あるいは否定的な感情の偏見を広く保持するか否かを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Gender bias and stereotypes in Large Language Models [0.6882042556551611]
本稿では,ジェンダーステレオタイプに関する大規模言語モデルの振る舞いについて考察する。
我々は、WinoBiasとは違って、性別バイアスの存在をテストするための単純なパラダイムを用いています。
a) LLMは、人の性別とステレオタイプ的に一致した職業を選択する確率が3~6倍、(b) これらの選択は、公務員の統計に反映された基礎的真実よりも人々の知覚に適合し、(d) LLMは、我々の研究項目の95%の時間において重要な曖昧さを無視する。
論文 参考訳(メタデータ) (2023-08-28T22:32:05Z) - The Unequal Opportunities of Large Language Models: Revealing
Demographic Bias through Job Recommendations [5.898806397015801]
大規模言語モデル(LLM)における人口統計バイアスの分析と比較のための簡易な手法を提案する。
本稿では,ChatGPTとLLaMAの交差バイアスを計測し,本手法の有効性を示す。
両モデルとも、メキシコ労働者の低賃金雇用を一貫して示唆するなど、さまざまな人口統計学的アイデンティティに対する偏見を識別する。
論文 参考訳(メタデータ) (2023-08-03T21:12:54Z) - Shedding light on underrepresentation and Sampling Bias in machine
learning [0.0]
差別を分散、偏見、ノイズに分解する方法を示す。
我々は、未表現グループのサンプルを多く集めることで、識別に対処できるという、広く受け入れられている緩和アプローチに挑戦する。
論文 参考訳(メタデータ) (2023-06-08T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。