論文の概要: Large Language Models Develop Novel Social Biases Through Adaptive Exploration
- arxiv url: http://arxiv.org/abs/2511.06148v1
- Date: Sat, 08 Nov 2025 21:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.780115
- Title: Large Language Models Develop Novel Social Biases Through Adaptive Exploration
- Title(参考訳): 大規模言語モデルによる適応探索による新しいソーシャルバイアスの開発
- Authors: Addison J. Wu, Ryan Liu, Xuechunzi Bai, Thomas L. Griffiths,
- Abstract要約: 大規模言語モデルは、人工的な人口集団に関する新しい社会的バイアスを自然に生み出すことができることを示す。
これらのバイアスは高度に階層化されたタスク割り当てをもたらす。
探索を明示的に動機付けることは、階層化を最も強力に減少させる。
- 参考スコア(独自算出の注目度): 7.787973834947505
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) are adopted into frameworks that grant them the capacity to make real decisions, it is increasingly important to ensure that they are unbiased. In this paper, we argue that the predominant approach of simply removing existing biases from models is not enough. Using a paradigm from the psychology literature, we demonstrate that LLMs can spontaneously develop novel social biases about artificial demographic groups even when no inherent differences exist. These biases result in highly stratified task allocations, which are less fair than assignments by human participants and are exacerbated by newer and larger models. In social science, emergent biases like these have been shown to result from exploration-exploitation trade-offs, where the decision-maker explores too little, allowing early observations to strongly influence impressions about entire demographic groups. To alleviate this effect, we examine a series of interventions targeting model inputs, problem structure, and explicit steering. We find that explicitly incentivizing exploration most robustly reduces stratification, highlighting the need for better multifaceted objectives to mitigate bias. These results reveal that LLMs are not merely passive mirrors of human social biases, but can actively create new ones from experience, raising urgent questions about how these systems will shape societies over time.
- Abstract(参考訳): 大きな言語モデル(LLM)が実際の決定を行う能力を与えるフレームワークに採用されるにつれて、それらがバイアスのないものであることを保証することがますます重要になる。
本稿では,既存のバイアスをモデルから取り除くという主要なアプローチは十分ではないと論じる。
心理学文献からのパラダイムを用いて, LLMは, 固有の差異が存在しない場合でも, 人工的人口集団に関する新たな社会的偏見を自然に発達させることができることを示した。
これらのバイアスは高度に階層化されたタスク割り当てをもたらすが、これは人間の割り当てよりも公平ではなく、新しいモデルやより大きなモデルによってさらに悪化する。
社会科学において、このような創発的な偏見は、人口集団全体の印象に強く影響を及ぼすために、意思決定者による探索と探索のトレードオフの結果であることが示されている。
この効果を緩和するために、モデル入力、問題構造、明示的なステアリングを対象とする一連の介入を検討する。
探索を明示的に動機付けることは、階層化を最も強力に減らし、バイアスを軽減するためのより良い多面的目標の必要性を強調します。
これらの結果は、LLMは単に人間の社会的偏見の受動的ミラーであるだけでなく、経験から新たな鏡を積極的に作り出すことが可能であることを明らかにし、これらのシステムが社会をどのように形成していくのかという緊急の疑問を提起する。
関連論文リスト
- Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - Small Changes, Large Consequences: Analyzing the Allocational Fairness of LLMs in Hiring Contexts [19.20592062296075]
大規模言語モデル(LLM)は、採用のような高度なアプリケーションにますますデプロイされている。
本研究は、実際の人事利用を反映した2つのタスクを通して、LLMベースの採用システムの割当公平性を検討する。
論文 参考訳(メタデータ) (2025-01-08T07:28:10Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - Towards detecting unanticipated bias in Large Language Models [1.4589372436314496]
LLM(Large Language Models)は、従来の機械学習システムと同様の公平性問題を示す。
本研究は、トレーニングデータにおけるバイアスの分析と定量化と、それらのモデルの決定に対する影響に焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T11:25:20Z) - Prompting Fairness: Integrating Causality to Debias Large Language Models [19.76215433424235]
大規模言語モデル(LLM)は偏見や差別的な反応を生じさせる可能性がある。
社会的偏見に対処するための因果性誘導型脱バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T17:46:28Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。