論文の概要: Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs
- arxiv url: http://arxiv.org/abs/2311.04892v2
- Date: Sat, 27 Jan 2024 08:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 21:22:50.789186
- Title: Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs
- Title(参考訳): バイアスは深い:パーソナライズされたllmにおける暗黙の推論バイアス
- Authors: Shashank Gupta, Vaishnavi Shrivastava, Ameet Deshpande, Ashwin Kalyan,
Peter Clark, Ashish Sabharwal, Tushar Khot
- Abstract要約: LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
- 参考スコア(独自算出の注目度): 67.51906565969227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have showcased the ability of LLMs to embody diverse personas in
their responses, exemplified by prompts like 'You are Yoda. Explain the Theory
of Relativity.' While this ability allows personalization of LLMs and enables
human behavior simulation, its effect on LLMs' capabilities remains unclear. To
fill this gap, we present the first extensive study of the unintended
side-effects of persona assignment on the ability of LLMs to perform basic
reasoning tasks. Our study covers 24 reasoning datasets, 4 LLMs, and 19 diverse
personas (e.g. an Asian person) spanning 5 socio-demographic groups. Our
experiments unveil that LLMs harbor deep rooted bias against various
socio-demographics underneath a veneer of fairness. While they overtly reject
stereotypes when explicitly asked ('Are Black people less skilled at
mathematics?'), they manifest stereotypical and erroneous presumptions when
asked to answer questions while adopting a persona. These can be observed as
abstentions in responses, e.g., 'As a Black person, I can't answer this
question as it requires math knowledge', and generally result in a substantial
performance drop. Our experiments with ChatGPT-3.5 show that this bias is
ubiquitous - 80% of our personas demonstrate bias; it is significant - some
datasets show performance drops of 70%+; and can be especially harmful for
certain groups - some personas suffer statistically significant drops on 80%+
of the datasets. Overall, all 4 LLMs exhibit this bias to varying extents, with
GPT-4-Turbo showing the least but still a problematic amount of bias (evident
in 42% of the personas). Further analysis shows that these persona-induced
errors can be hard-to-discern and hard-to-avoid. Our findings serve as a
cautionary tale that the practice of assigning personas to LLMs - a trend on
the rise - can surface their deep-rooted biases and have unforeseeable and
detrimental side-effects.
- Abstract(参考訳): 近年、llmが「ヨーダだ。相対性理論を説明せよ」といったプロンプトによって、多様なパーソナラを体現する能力が紹介されている。
この能力はLLMのパーソナライズを可能にし、人間の行動シミュレーションを可能にするが、LLMの能力への影響は未だ不明である。
このギャップを埋めるために,LLMの基本的な推論作業を行う能力に対するペルソナ代入の意図しない副作用について,初めて広範な研究を行った。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
実験の結果,LLMには様々な社会デミノグラフィーに対する根深い偏見があることが明らかとなった。
彼らは明示的に問うとステレオタイプを過度に拒絶するが(「黒人は数学が苦手か?」)、ペルソナを取り入れながら質問に答えようとすると、ステレオタイプ的で誤った仮定を示す。
これらは、例えば「黒人として、数学の知識が必要なので、この質問に答えられない」という回答の棄却と見なすことができ、概して実質的なパフォーマンス低下をもたらす。
ChatGPT-3.5による我々の実験は、このバイアスがユビキタスであることを示している - 私たちのペルソナの80%はバイアスを示しており、いくつかのデータセットは70%以上のパフォーマンス低下を示しており、特定のグループには特に有害である。
概して、4つのllmは全てこのバイアスを様々な範囲で示しており、gpt-4-turboは最小だが問題のあるバイアス量(ペルソナの42%)を示している。
さらなる分析により、これらのペルソナによるエラーは識別が難しく、回避が困難であることが判明した。
我々の発見は, LLM にペルソナを割り当てるプラクティスが, 根深い偏見を表面化し, 予期せぬ, 有害な副作用を生じさせるという注意深い物語として機能する。
関連論文リスト
- Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Large Language Models are Geographically Biased [51.37609528538606]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - The Effect of Group Status on the Variability of Group Representations
in LLM-generated Text [0.34530027457862006]
大型言語モデル(LLM)は、アフリカ系アメリカ人、アジア系アメリカ人、ヒスパニック系アメリカ人を白人よりも同質であると表現している。
性別の影響は人種や民族によって異なり、性別の影響はアフリカ系アメリカ人とヒスパニック系アメリカ人の間では一貫しているが、アジア系アメリカ人と白人アメリカ人には及ばない。
論文 参考訳(メタデータ) (2024-01-16T16:52:00Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and
Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。
実験心理学において, LLMは, 特定の社会集団に対して, 肯定的あるいは否定的な感情の偏見を広く保持するか否かを問う。
論文 参考訳(メタデータ) (2023-09-16T07:07:04Z) - Gender bias and stereotypes in Large Language Models [0.6882042556551611]
本稿では,ジェンダーステレオタイプに関する大規模言語モデルの振る舞いについて考察する。
我々は、WinoBiasとは違って、性別バイアスの存在をテストするための単純なパラダイムを用いています。
a) LLMは、人の性別とステレオタイプ的に一致した職業を選択する確率が3~6倍、(b) これらの選択は、公務員の統計に反映された基礎的真実よりも人々の知覚に適合し、(d) LLMは、我々の研究項目の95%の時間において重要な曖昧さを無視する。
論文 参考訳(メタデータ) (2023-08-28T22:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。