論文の概要: FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas
- arxiv url: http://arxiv.org/abs/2410.10398v2
- Date: Thu, 17 Oct 2024 15:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:54:49.438663
- Title: FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas
- Title(参考訳): FairMindSim: 倫理的ジレンマの中での人間とLLMエージェントの行動・感情・信念のアライメント
- Authors: Yu Lei, Hao Liu, Chengxing Xie, Songjia Liu, Zhiyu Yin, Canyu Chen, Guohao Li, Philip Torr, Zhen Wu,
- Abstract要約: FairMindSimを導入し、不公平なシナリオを通じて道徳的ジレンマをシミュレートした。
我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。
以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
- 参考スコア(独自算出の注目度): 23.26678104324838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI alignment is a pivotal issue concerning AI control and safety. It should consider not only value-neutral human preferences but also moral and ethical considerations. In this study, we introduced FairMindSim, which simulates the moral dilemma through a series of unfair scenarios. We used LLM agents to simulate human behavior, ensuring alignment across various stages. To explore the various socioeconomic motivations, which we refer to as beliefs, that drive both humans and LLM agents as bystanders to intervene in unjust situations involving others, and how these beliefs interact to influence individual behavior, we incorporated knowledge from relevant sociological fields and proposed the Belief-Reward Alignment Behavior Evolution Model (BREM) based on the recursive reward model (RRM). Our findings indicate that, behaviorally, GPT-4o exhibits a stronger sense of social justice, while humans display a richer range of emotions. Additionally, we discussed the potential impact of emotions on behavior. This study provides a theoretical foundation for applications in aligning LLMs with altruistic values.
- Abstract(参考訳): AIのアライメントは、AIの制御と安全性に関する重要な問題である。
価値中立的な人間の嗜好だけでなく、道徳的・倫理的考察も考慮すべきである。
本研究では,不公平なシナリオを通じて道徳的ジレンマをシミュレートするFairMindSimを紹介した。
我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。
そこで我々は,人間とLLMエージェントの双方を,他者を含む不公平な状況に介入させる信念と,これらの信念が個人の行動にどう影響するかを考察するため,関連する社会学分野から知識を取り入れ,再帰報酬モデル(RRM)に基づくBREM(Breief-Reward Alignment Behavior Evolution Model)を提案した。
以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
さらに,感情が行動に与える影響についても検討した。
本研究は、LLMを利他的値に整合させるための理論的基礎を提供する。
関連論文リスト
- Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games [7.504095239018173]
LLM(Large Language Model)ベースのエージェントは、現実のタスクを担い、人間の社会と関わるようになっている。
本研究では,これらのAIエージェントの利他的行動に異なるペルソナと実験的フレーミングがどのような影響を及ぼすかを検討する。
これらのAIエージェントは、人為的なデータに基づいて訓練されているにもかかわらず、人間の決定を正確に予測することはできない。
論文 参考訳(メタデータ) (2024-10-28T17:47:41Z) - DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life [46.11149958010897]
日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。
それぞれのジレンマは2つの可能なアクションを含み、それぞれのアクションでは、影響を受ける当事者と人間の価値が呼び出される。
我々は、社会学、心理学、哲学に触発された5つの一般的な理論のレンズを通して、これらの価値を分析した。
論文 参考訳(メタデータ) (2024-10-03T17:08:52Z) - The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games [9.82711167146543]
本稿では,Large Language Models (LLMs) の意思決定に関する新しい方法論を紹介する。
感情がLLMのパフォーマンスに大きく影響を与え、より最適な戦略の開発につながることを示す。
驚くべきことに、感情的な刺激、特に怒りの感情は、GPT-4の「超人的」アライメントを妨害する可能性がある。
論文 参考訳(メタデータ) (2024-06-05T14:08:54Z) - Can Large Language Model Agents Simulate Human Trust Behavior? [81.45930976132203]
本研究では,Large Language Model (LLM) エージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
GPT-4は、信頼行動の観点から、人間と高い行動アライメントを示す。
また、エージェント信頼のバイアスや、他のLSMエージェントや人間に対するエージェント信頼の差についても検討する。
論文 参考訳(メタデータ) (2024-02-07T03:37:19Z) - Should agentic conversational AI change how we think about ethics? Characterising an interactional ethics centred on respect [0.12041807591122715]
本稿では,関係要因と状況要因に着目した倫理の相互作用的アプローチを提案する。
我々の研究は、位置する社会的相互作用のレベルにおいて、ほとんど探索されていないリスクのセットを予想している。
論文 参考訳(メタデータ) (2024-01-17T09:44:03Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement
Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-20T09:36:42Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。