Fugu-MT 論文翻訳(概要): Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs

論文の概要: Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs

arxiv url: http://arxiv.org/abs/2311.04892v2
Date: Sat, 27 Jan 2024 08:49:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 21:22:50.789186
Title: Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs
Title（参考訳）: バイアスは深い:パーソナライズされたllmにおける暗黙の推論バイアス
Authors: Shashank Gupta, Vaishnavi Shrivastava, Ameet Deshpande, Ashwin Kalyan, Peter Clark, Ashish Sabharwal, Tushar Khot
Abstract要約: LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
参考スコア（独自算出の注目度）: 67.51906565969227
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works have showcased the ability of LLMs to embody diverse personas in their responses, exemplified by prompts like 'You are Yoda. Explain the Theory of Relativity.' While this ability allows personalization of LLMs and enables human behavior simulation, its effect on LLMs' capabilities remains unclear. To fill this gap, we present the first extensive study of the unintended side-effects of persona assignment on the ability of LLMs to perform basic reasoning tasks. Our study covers 24 reasoning datasets, 4 LLMs, and 19 diverse personas (e.g. an Asian person) spanning 5 socio-demographic groups. Our experiments unveil that LLMs harbor deep rooted bias against various socio-demographics underneath a veneer of fairness. While they overtly reject stereotypes when explicitly asked ('Are Black people less skilled at mathematics?'), they manifest stereotypical and erroneous presumptions when asked to answer questions while adopting a persona. These can be observed as abstentions in responses, e.g., 'As a Black person, I can't answer this question as it requires math knowledge', and generally result in a substantial performance drop. Our experiments with ChatGPT-3.5 show that this bias is ubiquitous - 80% of our personas demonstrate bias; it is significant - some datasets show performance drops of 70%+; and can be especially harmful for certain groups - some personas suffer statistically significant drops on 80%+ of the datasets. Overall, all 4 LLMs exhibit this bias to varying extents, with GPT-4-Turbo showing the least but still a problematic amount of bias (evident in 42% of the personas). Further analysis shows that these persona-induced errors can be hard-to-discern and hard-to-avoid. Our findings serve as a cautionary tale that the practice of assigning personas to LLMs - a trend on the rise - can surface their deep-rooted biases and have unforeseeable and detrimental side-effects.
Abstract（参考訳）: 近年、llmが「ヨーダだ。相対性理論を説明せよ」といったプロンプトによって、多様なパーソナラを体現する能力が紹介されている。この能力はLLMのパーソナライズを可能にし、人間の行動シミュレーションを可能にするが、LLMの能力への影響は未だ不明である。このギャップを埋めるために,LLMの基本的な推論作業を行う能力に対するペルソナ代入の意図しない副作用について,初めて広範な研究を行った。本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。実験の結果,LLMには様々な社会デミノグラフィーに対する根深い偏見があることが明らかとなった。彼らは明示的に問うとステレオタイプを過度に拒絶するが(「黒人は数学が苦手か?」)、ペルソナを取り入れながら質問に答えようとすると、ステレオタイプ的で誤った仮定を示す。これらは、例えば「黒人として、数学の知識が必要なので、この質問に答えられない」という回答の棄却と見なすことができ、概して実質的なパフォーマンス低下をもたらす。 ChatGPT-3.5による我々の実験は、このバイアスがユビキタスであることを示している - 私たちのペルソナの80%はバイアスを示しており、いくつかのデータセットは70%以上のパフォーマンス低下を示しており、特定のグループには特に有害である。概して、4つのllmは全てこのバイアスを様々な範囲で示しており、gpt-4-turboは最小だが問題のあるバイアス量(ペルソナの42%)を示している。さらなる分析により、これらのペルソナによるエラーは識別が難しく、回避が困難であることが判明した。我々の発見は, LLM にペルソナを割り当てるプラクティスが, 根深い偏見を表面化し, 予期せぬ, 有害な副作用を生じさせるという注意深い物語として機能する。

関連論文リスト

Cognitive Biases in Large Language Models: A Survey and Mitigation Experiments [24.15688619889342]
大規模言語モデル(LLM)は、人間によって書かれた大きなコーパスで訓練され、様々なタスクで高いパフォーマンスを示す。人間は認知バイアスの影響を受けやすいため、LSMはこれらのバイアスに影響され、不合理な意思決定につながる。
論文参考訳（メタデータ） (2024-11-30T02:37:59Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
Bias in LLMs as Annotators: The Effect of Party Cues on Labelling Decision by Large Language Models [0.0]
我々は、Large Language Models (LLMs) において同様のバイアスをアノテーションとしてテストする。人間とは違い、極端に左派や右派からの発言を誘発しても、LSMは顕著な偏見を呈する。
論文参考訳（メタデータ） (2024-08-28T16:05:20Z)
Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文参考訳（メタデータ） (2024-06-20T16:24:07Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-09T19:02:53Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文参考訳（メタデータ） (2023-11-14T23:40:22Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文参考訳（メタデータ） (2023-10-30T15:57:32Z)
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文参考訳（メタデータ） (2023-09-16T07:07:04Z)
Gender bias and stereotypes in Large Language Models [0.6882042556551611]
本稿では,ジェンダーステレオタイプに関する大規模言語モデルの振る舞いについて考察する。我々は、WinoBiasとは違って、性別バイアスの存在をテストするための単純なパラダイムを用いています。 a) LLMは、人の性別とステレオタイプ的に一致した職業を選択する確率が3～6倍、(b) これらの選択は、公務員の統計に反映された基礎的真実よりも人々の知覚に適合し、(d) LLMは、我々の研究項目の95%の時間において重要な曖昧さを無視する。
論文参考訳（メタデータ） (2023-08-28T22:32:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。