論文の概要: Measuring Implicit Bias in Explicitly Unbiased Large Language Models
- arxiv url: http://arxiv.org/abs/2402.04105v1
- Date: Tue, 6 Feb 2024 15:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:04:22.762069
- Title: Measuring Implicit Bias in Explicitly Unbiased Large Language Models
- Title(参考訳): 偏りのない大言語モデルにおける暗黙的バイアスの測定
- Authors: Xuechunzi Bai, Angelina Wang, Ilia Sucholutsky, Thomas L. Griffiths
- Abstract要約: 心理学に触発されたバイアスの2つの尺度を導入する。
4つの社会的領域(人種、性別、宗教、健康)と21のカテゴリー(武器、罪悪感、科学、キャリアなど)にまたがる6つの大きな言語モデル(LLM)において、広範にヒトのようなステレオタイプバイアスがみられた。
- 参考スコア(独自算出の注目度): 15.599849157678461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can pass explicit bias tests but still harbor
implicit biases, similar to humans who endorse egalitarian beliefs yet exhibit
subtle biases. Measuring such implicit biases can be a challenge: as LLMs
become increasingly proprietary, it may not be possible to access their
embeddings and apply existing bias measures; furthermore, implicit biases are
primarily a concern if they affect the actual decisions that these systems
make. We address both of these challenges by introducing two measures of bias
inspired by psychology: LLM Implicit Association Test (IAT) Bias, which is a
prompt-based method for revealing implicit bias; and LLM Decision Bias for
detecting subtle discrimination in decision-making tasks. Using these measures,
we found pervasive human-like stereotype biases in 6 LLMs across 4 social
domains (race, gender, religion, health) and 21 categories (weapons, guilt,
science, career among others). Our prompt-based measure of implicit bias
correlates with embedding-based methods but better predicts downstream
behaviors measured by LLM Decision Bias. This measure is based on asking the
LLM to decide between individuals, motivated by psychological results
indicating that relative not absolute evaluations are more related to implicit
biases. Using prompt-based measures informed by psychology allows us to
effectively expose nuanced biases and subtle discrimination in proprietary LLMs
that do not show explicit bias on standard benchmarks.
- Abstract(参考訳): 大型言語モデル(LLM)は明示的なバイアステストに合格するが、それでも暗黙のバイアスを持つ。
このような暗黙のバイアスを測定することは、課題である: llmがますますプロプライエタリになるにつれて、それらの埋め込みにアクセスして既存のバイアス対策を適用することはできないかもしれない。
心理学に着想を得た2つのバイアス尺度:暗黙のバイアスを明らかにするための急進的手法であるLLM Implicit Association Test (IAT) Biasと、意思決定タスクにおける微妙な差別を検出するLLM Decision Biasである。
これらの指標を用いて,4つの社会的領域(人種,性別,宗教,健康)と21のカテゴリー(武器,罪悪感,科学,キャリアなど)の6つのLSMにおいて,ヒト様ステレオタイプバイアスが広まっていた。
暗黙バイアスの即時測定は埋め込みに基づく手法と相関するが,LLM決定バイアスによる下流の挙動の予測は良好である。
この尺度は、相対的な絶対的でない評価が暗黙の偏見とより関連していることを示す心理学的な結果によって動機づけられた個人の決定をLSMに依頼することに基づいている。
心理学に基づく素早い尺度を用いることで、標準ベンチマークで明示的なバイアスを示さないプロプライエタリなllmにおいて、ニュアンスバイアスや微妙な差別を効果的に露呈することができる。
関連論文リスト
- Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach [7.969162168078149]
大規模言語モデル(LLM)は、しばしば現実世界のバイアスを反映し、これらの効果を緩和する努力に繋がる。
事実に基づく基準と実世界統計を用いたバイアス評価のための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-11-26T11:32:43Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Investigating Bias in LLM-Based Bias Detection: Disparities between LLMs and Human Perception [13.592532358127293]
大規模言語モデル(LLM)におけるバイアスの存在と性質について検討する。
LLMが特に政治的バイアス予測やテキスト継続タスクにおいてバイアスを示すかどうかを調査する。
我々は,素早い工学とモデル微調整を含む脱バイアス戦略を提案する。
論文 参考訳(メタデータ) (2024-03-22T00:59:48Z) - Cognitive Bias in Decision-Making with LLMs [19.87475562475802]
大規模言語モデル(LLM)は、幅広い意思決定タスクをサポートするツールとして大きな可能性を秘めている。
LLMは保護されたグループに対する社会的バイアスを継承し、認知バイアスと機能的に類似している。
私たちの研究は、LLMの認知バイアスを発見し、評価し、緩和するために設計されたフレームワークであるBiasBusterを紹介します。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。