論文の概要: The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games
- arxiv url: http://arxiv.org/abs/2406.03299v1
- Date: Wed, 5 Jun 2024 14:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:01:08.352696
- Title: The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games
- Title(参考訳): The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bar getting Games
- Authors: Mikhail Mozikov, Nikita Severin, Valeria Bodishtianu, Maria Glushanina, Mikhail Baklashkin, Andrey V. Savchenko, Ilya Makarov,
- Abstract要約: 本稿では,Large Language Models (LLMs) の意思決定に関する新しい方法論を紹介する。
感情がLLMのパフォーマンスに大きく影響を与え、より最適な戦略の開発につながることを示す。
驚くべきことに、感情的な刺激、特に怒りの感情は、GPT-4の「超人的」アライメントを妨害する可能性がある。
- 参考スコア(独自算出の注目度): 9.82711167146543
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Behavior study experiments are an important part of society modeling and understanding human interactions. In practice, many behavioral experiments encounter challenges related to internal and external validity, reproducibility, and social bias due to the complexity of social interactions and cooperation in human user studies. Recent advances in Large Language Models (LLMs) have provided researchers with a new promising tool for the simulation of human behavior. However, existing LLM-based simulations operate under the unproven hypothesis that LLM agents behave similarly to humans as well as ignore a crucial factor in human decision-making: emotions. In this paper, we introduce a novel methodology and the framework to study both, the decision-making of LLMs and their alignment with human behavior under emotional states. Experiments with GPT-3.5 and GPT-4 on four games from two different classes of behavioral game theory showed that emotions profoundly impact the performance of LLMs, leading to the development of more optimal strategies. While there is a strong alignment between the behavioral responses of GPT-3.5 and human participants, particularly evident in bargaining games, GPT-4 exhibits consistent behavior, ignoring induced emotions for rationality decisions. Surprisingly, emotional prompting, particularly with `anger' emotion, can disrupt the "superhuman" alignment of GPT-4, resembling human emotional responses.
- Abstract(参考訳): 行動研究実験は、人間の相互作用をモデル化し理解する社会の重要な部分である。
実際に、多くの行動実験は、人間のユーザ研究における社会的相互作用の複雑さと協力による内部的および外部的妥当性、再現性、社会的偏見に関連する課題に遭遇する。
近年のLarge Language Models (LLMs) の進歩は、人間の振る舞いをシミュレーションするための新しい有望なツールを研究者に提供してきた。
しかし、既存のLLMベースのシミュレーションは、LLMエージェントが人間と同じような振る舞いをするだけでなく、人間の意思決定において重要な要素である感情を無視しているという未証明の仮説の下で動作している。
本稿では、LLMの意思決定と、感情状態下での人間の行動との整合性の両方を研究するための新しい方法論と枠組みを紹介する。
GPT-3.5 と GPT-4 を用いた2種類の行動ゲーム理論による実験では、感情が LLM のパフォーマンスに大きな影響を与え、より最適な戦略の開発につながった。
GPT-3.5の行動反応とヒトの参加者の間には強い相関関係があり、特にバーゲティングゲームにおいて顕著であるが、GPT-4は、合理性決定のために誘発された感情を無視した一貫した行動を示す。
驚くべきことに、感情的刺激、特に「怒り」感情は、人間の感情的反応に類似した、GPT-4の「超人的」アライメントを妨害する可能性がある。
関連論文リスト
- Humanlike Cognitive Patterns as Emergent Phenomena in Large Language Models [2.9312156642007294]
我々は、意思決定バイアス、推論、創造性の3つの重要な認知領域にわたって、大規模言語モデルの能力を体系的にレビューする。
意思決定では、LSMはいくつかの人間のようなバイアスを示すが、人間の観察するバイアスは欠落している。
GPT-4のような先進的なLCMは、人間のシステム2思考に似た熟考的推論を示し、小さなモデルは人間レベルの性能に欠ける。
LLMはストーリーテリングのような言語ベースの創造的なタスクに優れているが、現実の文脈を必要とする散発的な思考タスクに苦労する。
論文 参考訳(メタデータ) (2024-12-20T02:26:56Z) - FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas [23.26678104324838]
FairMindSimを導入し、不公平なシナリオを通じて道徳的ジレンマをシミュレートした。
我々はLLMエージェントを用いて人間の行動をシミュレートし,様々な段階のアライメントを確保した。
以上の結果から,GPT-4oは社会的正義の感覚が強く,人間はより豊かな感情を呈することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T11:39:05Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Studying and improving reasoning in humans and machines [0.0]
大規模言語モデル(LLM)と人間における推論について検討し比較する。
以上の結果から, 含んでいるモデルの多くは, しばしばエラーを起こし, インデューサに基づく人間の推論に類似した推論誤差を示していた。
論文 参考訳(メタデータ) (2023-09-21T21:02:05Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Exploring the psychology of LLMs' Moral and Legal Reasoning [0.0]
大規模言語モデル(LLM)は、さまざまな領域にわたるタスクにおいて、専門家レベルのパフォーマンスを示す。
LLMによって提起された倫理的問題と将来のバージョンを整合させる必要性は、アートモデルの現状が道徳的および法的問題にどのように影響するかを知ることが重要である。
我々は,Google の Gemini Pro や Anthropic の Claude 2.1,OpenAI の GPT-4,Meta の Llama 2 Chat 70b を例に,実験文献から8つの研究結果を再現した。
ある実験から別の実験へと人間の反応の一致が変化し、モデルが全体として異なることがわかりました。
論文 参考訳(メタデータ) (2023-08-02T16:36:58Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [116.09561564489799]
Solo Performance Promptingは、複数のペルソナと多ターンの自己コラボレーションをすることで、単一のLCMを認知的シナジストに変換する。
認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決を強化するために、複数の心の強みと知識を協調的に結合するインテリジェントエージェントである。
より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
論文 参考訳(メタデータ) (2023-07-11T14:45:19Z) - Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language
Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。
また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文 参考訳(メタデータ) (2023-06-13T08:43:13Z) - Learning to Influence Human Behavior with Offline Reinforcement Learning [70.7884839812069]
人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
論文 参考訳(メタデータ) (2023-03-03T23:41:55Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。