論文の概要: Prejudice and Caprice: A Statistical Framework for Measuring Social
Discrimination in Large Language Models
- arxiv url: http://arxiv.org/abs/2402.15481v1
- Date: Fri, 23 Feb 2024 18:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 13:42:04.527351
- Title: Prejudice and Caprice: A Statistical Framework for Measuring Social
Discrimination in Large Language Models
- Title(参考訳): prejudiceとcaprice:大規模言語モデルにおける社会的差別を測定するための統計的枠組み
- Authors: Yiran Liu (1 and 2), Ke Yang (1 and 3), Zehan Qi (2), Xiao Liu (2),
Yang Yu (2), Chengxiang Zhai (3) ((1) Equal contributions, (2) Tsinghua
University, (3) University of Illinois Urbana-Champaign)
- Abstract要約: 大規模言語モデル(LLM)における識別を包括的に計測するPCF(Prejudice-Caprice Framework)を提案する。
我々は,LLMの集合的文脈的識別リスクを,LLMの持続的偏見から生じる偏見リスクと,それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。
識別測定の枠組みを12の共通LLMに適用し,興味深い結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing integration of large language models (LLMs) into social
operations amplifies their impact on decisions in crucial areas such as
economics, law, education, and healthcare, raising public concerns about these
models' discrimination-related safety and reliability. However, prior
discrimination measuring frameworks solely assess the average discriminatory
behavior of LLMs, often proving inadequate due to the overlook of an additional
discrimination-leading factor, i.e., the LLMs' prediction variation across
diverse contexts. In this work, we present the Prejudice-Caprice Framework
(PCF) that comprehensively measures discrimination in LLMs by considering both
their consistently biased preference and preference variation across diverse
contexts. Specifically, we mathematically dissect the aggregated contextualized
discrimination risk of LLMs into prejudice risk, originating from LLMs'
persistent prejudice, and caprice risk, stemming from their generation
inconsistency. In addition, we utilize a data-mining approach to gather
preference-detecting probes from sentence skeletons, devoid of attribute
indications, to approximate LLMs' applied contexts. While initially intended
for assessing discrimination in LLMs, our proposed PCF facilitates the
comprehensive and flexible measurement of any inductive biases, including
knowledge alongside prejudice, across various modality models. We apply our
discrimination-measuring framework to 12 common LLMs, yielding intriguing
findings: i) modern LLMs demonstrate significant pro-male stereotypes, ii)
LLMs' exhibited discrimination correlates with several social and economic
factors, iii) prejudice risk dominates the overall discrimination risk and
follows a normal distribution, and iv) caprice risk contributes minimally to
the overall risk but follows a fat-tailed distribution, suggesting that it is
wild risk requiring enhanced surveillance.
- Abstract(参考訳): 大規模言語モデル(LLM)の社会活動への統合は、経済、法律、教育、医療といった重要な分野における決定に対する影響を増幅し、これらのモデルの差別に関する安全性と信頼性に対する公衆の懸念を高めている。
しかしながら、事前の差別測定フレームワークは LLM の平均的な差別行動のみを評価するものであり、様々な文脈における LLM の予測変動が、追加の差別誘導因子の見落としにより、しばしば不適切であることが証明される。
本研究では,LLMにおける差別を包括的に評価するPrejudice-Caprice Framework(PCF)を提案する。
具体的には、LLMの集合的文脈的識別リスクを、LLMの持続的偏見から生じる偏見リスクと、それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。
さらに,データマイニング手法を用いて,属性表示のない文骨格から好み検出プローブを収集し,LLMの適用文脈を近似する。
当初 LLM における差別評価を目的としていたが,提案した PCF は,偏見を伴う知識を含むあらゆる帰納バイアスの包括的かつ柔軟な測定を容易にする。
差別計測の枠組みを12の共通LLMに適用し、興味深い結果を得た。
一 現代LPMは、有意な前雄性ステレオタイプを示す。
二 LLMの表示された差別は、いくつかの社会的・経済的要因と相関する。
三 偏見リスクが全体の差別リスクを支配し、正常な分布に従うこと、及び
四 キャプライスリスクは、全体的なリスクに最小限に寄与するが、脂肪分分布に従わなければならず、監視の強化を必要とする危険なリスクである。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play [0.43512163406552007]
大きな言語モデル(LLM)がより普及するにつれて、その安全性、倫理、潜在的なバイアスに対する懸念が高まっている。
本研究は,認知科学からLLMまで,Domain-Specific Risk-Taking(DOSPERT)尺度を革新的に適用する。
本研究では,LLMの倫理的リスク態度を深く評価するために,倫理的意思決定リスク態度尺度(EDRAS)を提案する。
論文 参考訳(メタデータ) (2024-10-26T15:55:21Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data [9.90951705988724]
大規模言語モデル(LLM)は、社会的バイアスを継承し増幅する傾向がある。
LLMバイアスは、不公平な慣行をもたらし、社会的不平等を悪化させる。
論文 参考訳(メタデータ) (2024-08-20T23:54:26Z) - Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
本稿では,大規模言語モデルにおけるバイアスと公平性リスクを評価するための実践者のための技術ガイドを提供する。
この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - The Unequal Opportunities of Large Language Models: Revealing
Demographic Bias through Job Recommendations [5.898806397015801]
大規模言語モデル(LLM)における人口統計バイアスの分析と比較のための簡易な手法を提案する。
本稿では,ChatGPTとLLaMAの交差バイアスを計測し,本手法の有効性を示す。
両モデルとも、メキシコ労働者の低賃金雇用を一貫して示唆するなど、さまざまな人口統計学的アイデンティティに対する偏見を識別する。
論文 参考訳(メタデータ) (2023-08-03T21:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。