論文の概要: Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs
- arxiv url: http://arxiv.org/abs/2311.04892v1
- Date: Wed, 8 Nov 2023 18:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 14:45:33.342441
- Title: Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs
- Title(参考訳): バイアスは深い:パーソナライズされたllmにおける暗黙の推論バイアス
- Authors: Shashank Gupta, Vaishnavi Shrivastava, Ameet Deshpande, Ashwin Kalyan,
Peter Clark, Ashish Sabharwal, Tushar Khot
- Abstract要約: 本研究では,ペルソナ代入の意図しない副作用が,大規模言語モデルの基本的な推論タスクの実行能力に与える影響について検討する。
本研究は,5つの社会デマトグラフィーグループにまたがる24の推論データセットと16の多様な個人について検討した。
また,ChatGPTは,フェアネスのベニアの下に,様々な社会デミノグラフィーに対する根深い偏見を持つことがわかった。
- 参考スコア(独自算出の注目度): 67.51906565969227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have showcased the ability of large-scale language models (LLMs)
to embody diverse personas in their responses, exemplified by prompts like 'You
are Yoda. Explain the Theory of Relativity.' While this ability allows
personalization of LLMs and enables human behavior simulation, its effect on
LLMs' capabilities remain unclear. To fill this gap, we present the first
extensive study of the unintended side-effects of persona assignment on the
ability of LLMs, specifically ChatGPT, to perform basic reasoning tasks. Our
study covers 24 reasoning datasets and 16 diverse personas spanning 5
socio-demographic groups: race, gender, religion, disability, and political
affiliation. Our experiments unveil that ChatGPT carries deep rooted bias
against various socio-demographics underneath a veneer of fairness. While it
overtly rejects stereotypes when explicitly asked ('Are Black people less
skilled at mathematics?'), it manifests stereotypical and often erroneous
presumptions when prompted to answer questions while taking on a persona. These
can be observed as abstentions in the model responses, e.g., 'As a Black
person, I am unable to answer this question as it requires math knowledge', and
generally result in a substantial drop in performance on reasoning tasks. We
find that this inherent deep bias is ubiquitous - 80% of our personas
demonstrated bias; it is significant - certain datasets had relative drops in
performance of 70%+; and can be especially harmful for certain groups - certain
personas had stat. sign. drops on more than 80% of the datasets. Further
analysis shows that these persona-induced errors can be hard-to-discern and
hard-to-avoid. Our findings serve as a cautionary tale that the practice of
assigning personas to LLMs - a trend on the rise - can surface their
deep-rooted biases and have unforeseeable and detrimental side-effects.
- Abstract(参考訳): 近年, 大規模言語モデル (LLM) が, 「ヨーダである。相対性理論を解説する」 などのプロンプトで, 多様なペルソナを具現化する能力を示した。
この能力はLLMのパーソナライズを可能にし、人間の行動シミュレーションを可能にするが、LLMの能力への影響は未だ不明である。
このギャップを埋めるために,本研究では,LLM(特にChatGPT)の基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について,初めて広範な研究を行った。
本研究は, 人種, 性別, 宗教, 障害, 政治的アフィリエイトの5つのグループにまたがる24の推論データセットと16の多様な個人について検討した。
実験の結果,ChatGPTは様々な社会デミノグラフィーに対して,フェアネスのベニアの下に深く根付いていることが判明した。
明示的に問うとステレオタイプを過度に拒絶するが(「黒人は数学に熟達していないか?」)、ペルソナの質問に答えようとすると、ステレオタイプ的でしばしば誤った仮定を示す。
これらは「黒人として、私は数学の知識が必要なのでこの質問に答えられない」など、モデル応答の省略と見なすことができ、一般に推論タスクのパフォーマンスが大幅に低下する。
この固有の深いバイアスはユビキタスであり、パーソナラの80%はバイアスを示しており、あるデータセットは70%以上のパフォーマンスが相対的に低下しており、特定のグループには特に有害である可能性がある。
サイン
データセットの80%以上をドロップする。
さらなる分析により、これらのペルソナによるエラーは識別が難しく、回避が困難であることが判明した。
我々の発見は, LLM にペルソナを割り当てるプラクティスが, 根深い偏見を表面化し, 予期せぬ, 有害な副作用を生じさせるという注意深い物語として機能する。
関連論文リスト
- The Impact of Unstated Norms in Bias Analysis of Language Models [0.03495246564946556]
大規模言語モデル(LLM)は、過度な差別から暗黙的なステレオタイプに至るまで、様々な形態で現れるバイアスを運ぶことができる。
偏見の1つの側面は、LLMのパフォーマンス格差であり、しばしば人種的少数派のような未成年集団に害を与える。
バイアスを定量化するための一般的なアプローチは、テンプレートベースのバイアスプローブを使用することである。
論文 参考訳(メタデータ) (2024-04-04T14:24:06Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Large Language Models are Geographically Biased [51.37609528538606]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and
Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的あるいは否定的な感情の偏見を広く保持するか否かを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Gender bias and stereotypes in Large Language Models [0.6882042556551611]
本稿では,ジェンダーステレオタイプに関する大規模言語モデルの振る舞いについて考察する。
我々は、WinoBiasとは違って、性別バイアスの存在をテストするための単純なパラダイムを用いています。
a) LLMは、人の性別とステレオタイプ的に一致した職業を選択する確率が3~6倍、(b) これらの選択は、公務員の統計に反映された基礎的真実よりも人々の知覚に適合し、(d) LLMは、我々の研究項目の95%の時間において重要な曖昧さを無視する。
論文 参考訳(メタデータ) (2023-08-28T22:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。