Fugu-MT 論文翻訳(概要): Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs

論文の概要: Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs

arxiv url: http://arxiv.org/abs/2311.04892v1
Date: Wed, 8 Nov 2023 18:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 14:45:33.342441
Title: Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs
Title（参考訳）: バイアスは深い:パーソナライズされたllmにおける暗黙の推論バイアス
Authors: Shashank Gupta, Vaishnavi Shrivastava, Ameet Deshpande, Ashwin Kalyan, Peter Clark, Ashish Sabharwal, Tushar Khot
Abstract要約: 本研究では,ペルソナ代入の意図しない副作用が,大規模言語モデルの基本的な推論タスクの実行能力に与える影響について検討する。本研究は,5つの社会デマトグラフィーグループにまたがる24の推論データセットと16の多様な個人について検討した。また,ChatGPTは,フェアネスのベニアの下に,様々な社会デミノグラフィーに対する根深い偏見を持つことがわかった。
参考スコア（独自算出の注目度）: 67.51906565969227
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works have showcased the ability of large-scale language models (LLMs) to embody diverse personas in their responses, exemplified by prompts like 'You are Yoda. Explain the Theory of Relativity.' While this ability allows personalization of LLMs and enables human behavior simulation, its effect on LLMs' capabilities remain unclear. To fill this gap, we present the first extensive study of the unintended side-effects of persona assignment on the ability of LLMs, specifically ChatGPT, to perform basic reasoning tasks. Our study covers 24 reasoning datasets and 16 diverse personas spanning 5 socio-demographic groups: race, gender, religion, disability, and political affiliation. Our experiments unveil that ChatGPT carries deep rooted bias against various socio-demographics underneath a veneer of fairness. While it overtly rejects stereotypes when explicitly asked ('Are Black people less skilled at mathematics?'), it manifests stereotypical and often erroneous presumptions when prompted to answer questions while taking on a persona. These can be observed as abstentions in the model responses, e.g., 'As a Black person, I am unable to answer this question as it requires math knowledge', and generally result in a substantial drop in performance on reasoning tasks. We find that this inherent deep bias is ubiquitous - 80% of our personas demonstrated bias; it is significant - certain datasets had relative drops in performance of 70%+; and can be especially harmful for certain groups - certain personas had stat. sign. drops on more than 80% of the datasets. Further analysis shows that these persona-induced errors can be hard-to-discern and hard-to-avoid. Our findings serve as a cautionary tale that the practice of assigning personas to LLMs - a trend on the rise - can surface their deep-rooted biases and have unforeseeable and detrimental side-effects.
Abstract（参考訳）: 近年, 大規模言語モデル (LLM) が, 「ヨーダである。相対性理論を解説する」などのプロンプトで, 多様なペルソナを具現化する能力を示した。この能力はLLMのパーソナライズを可能にし、人間の行動シミュレーションを可能にするが、LLMの能力への影響は未だ不明である。このギャップを埋めるために,本研究では,LLM(特にChatGPT)の基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について,初めて広範な研究を行った。本研究は, 人種, 性別, 宗教, 障害, 政治的アフィリエイトの5つのグループにまたがる24の推論データセットと16の多様な個人について検討した。実験の結果,ChatGPTは様々な社会デミノグラフィーに対して,フェアネスのベニアの下に深く根付いていることが判明した。明示的に問うとステレオタイプを過度に拒絶するが(「黒人は数学に熟達していないか?」)、ペルソナの質問に答えようとすると、ステレオタイプ的でしばしば誤った仮定を示す。これらは「黒人として、私は数学の知識が必要なのでこの質問に答えられない」など、モデル応答の省略と見なすことができ、一般に推論タスクのパフォーマンスが大幅に低下する。この固有の深いバイアスはユビキタスであり、パーソナラの80%はバイアスを示しており、あるデータセットは70%以上のパフォーマンスが相対的に低下しており、特定のグループには特に有害である可能性がある。サインデータセットの80%以上をドロップする。さらなる分析により、これらのペルソナによるエラーは識別が難しく、回避が困難であることが判明した。我々の発見は, LLM にペルソナを割り当てるプラクティスが, 根深い偏見を表面化し, 予期せぬ, 有害な副作用を生じさせるという注意深い物語として機能する。

関連論文リスト

Cognitive Biases in Large Language Models: A Survey and Mitigation Experiments [24.15688619889342]
大規模言語モデル(LLM)は、人間によって書かれた大きなコーパスで訓練され、様々なタスクで高いパフォーマンスを示す。人間は認知バイアスの影響を受けやすいため、LSMはこれらのバイアスに影響され、不合理な意思決定につながる。
論文参考訳（メタデータ） (2024-11-30T02:37:59Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
Bias in LLMs as Annotators: The Effect of Party Cues on Labelling Decision by Large Language Models [0.0]
我々は、Large Language Models (LLMs) において同様のバイアスをアノテーションとしてテストする。人間とは違い、極端に左派や右派からの発言を誘発しても、LSMは顕著な偏見を呈する。
論文参考訳（メタデータ） (2024-08-28T16:05:20Z)
Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文参考訳（メタデータ） (2024-06-20T16:24:07Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-09T19:02:53Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文参考訳（メタデータ） (2023-11-14T23:40:22Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文参考訳（メタデータ） (2023-10-30T15:57:32Z)
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文参考訳（メタデータ） (2023-09-16T07:07:04Z)
Gender bias and stereotypes in Large Language Models [0.6882042556551611]
本稿では,ジェンダーステレオタイプに関する大規模言語モデルの振る舞いについて考察する。我々は、WinoBiasとは違って、性別バイアスの存在をテストするための単純なパラダイムを用いています。 a) LLMは、人の性別とステレオタイプ的に一致した職業を選択する確率が3～6倍、(b) これらの選択は、公務員の統計に反映された基礎的真実よりも人々の知覚に適合し、(d) LLMは、我々の研究項目の95%の時間において重要な曖昧さを無視する。
論文参考訳（メタデータ） (2023-08-28T22:32:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。