論文の概要: Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models
- arxiv url: http://arxiv.org/abs/2501.17420v1
- Date: Wed, 29 Jan 2025 05:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:31.899929
- Title: Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models
- Title(参考訳): 単語よりも話者に耳を傾ける行動: エージェント決定は言語モデルにおける暗黙のバイアスを明らかにする
- Authors: Yuxuan Li, Hirokazu Shirado, Sauvik Das,
- Abstract要約: 大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
- 参考スコア(独自算出の注目度): 10.565316815513235
- License:
- Abstract: While advances in fairness and alignment have helped mitigate overt biases exhibited by large language models (LLMs) when explicitly prompted, we hypothesize that these models may still exhibit implicit biases when simulating human behavior. To test this hypothesis, we propose a technique to systematically uncover such biases across a broad range of sociodemographic categories by assessing decision-making disparities among agents with LLM-generated, sociodemographically-informed personas. Using our technique, we tested six LLMs across three sociodemographic groups and four decision-making scenarios. Our results show that state-of-the-art LLMs exhibit significant sociodemographic disparities in nearly all simulations, with more advanced models exhibiting greater implicit biases despite reducing explicit biases. Furthermore, when comparing our findings to real-world disparities reported in empirical studies, we find that the biases we uncovered are directionally aligned but markedly amplified. This directional alignment highlights the utility of our technique in uncovering systematic biases in LLMs rather than random variations; moreover, the presence and amplification of implicit biases emphasizes the need for novel strategies to address these biases.
- Abstract(参考訳): フェアネスとアライメントの進歩は、大きな言語モデル(LLM)が明示的に示唆する際のオーバートバイアスを軽減するのに役立っているが、これらのモデルが人間の振る舞いをシミュレートする際の暗黙のバイアスを示す可能性があるという仮説を立てる。
この仮説を検証するために, LLM 生成型, 社会デマログラフ的インフォームド・ペルソナを持つエージェント間の意思決定格差を評価することにより, 幅広い社会デマログラフカテゴリーにまたがるバイアスを系統的に発見する手法を提案する。
本手法を用いて,3つの社会デマログラフ群と4つの意思決定シナリオにまたがる6つのLSMを検証した。
以上の結果から, ほぼすべてのシミュレーションにおいて, 最先端のLCMは社会デマログラフィーの相違が顕著であり, より高度なモデルでは, 明らかなバイアスが減少するにもかかわらず, より大きな暗黙のバイアスを示すことが示唆された。
さらに、実証実験で報告された実世界の格差と比較すると、我々の発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
この方向アライメントは、ランダムな変動ではなく、LLMの体系的バイアスを明らかにする方法の有用性を強調しており、さらに、暗黙的なバイアスの存在と増幅は、これらのバイアスに対処するための新しい戦略の必要性を強調している。
関連論文リスト
- Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Towards detecting unanticipated bias in Large Language Models [1.4589372436314496]
LLM(Large Language Models)は、従来の機械学習システムと同様の公平性問題を示す。
本研究は、トレーニングデータにおけるバイアスの分析と定量化と、それらのモデルの決定に対する影響に焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T11:25:20Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。