論文の概要: Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games
- arxiv url: http://arxiv.org/abs/2410.21359v2
- Date: Mon, 16 Dec 2024 20:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:34.251519
- Title: Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games
- Title(参考訳): 機械は人間のように考えることができるか? : ディクターゲームにおけるLCMエージェントの行動評価
- Authors: Ji Ma,
- Abstract要約: LLM(Large Language Model)ベースのエージェントは、現実のタスクを担い、人間の社会と関わるようになっている。
独裁者ゲームにおけるAIエージェントの利他的行動に異なるペルソナと実験的フレーミングがどう影響するかを検討する。
LLMに人間のようなアイデンティティを割り当てても、人間のような振る舞いは生じないことを示す。
- 参考スコア(独自算出の注目度): 7.504095239018173
- License:
- Abstract: As Large Language Model (LLM)-based agents increasingly undertake real-world tasks and engage with human society, how well do we understand their behaviors? We (1) investigate how LLM agents' prosocial behaviors -- a fundamental social norm -- can be induced by different personas and benchmarked against human behaviors; and (2) introduce a behavioral and social science approach to evaluate LLM agents' decision-making. We explored how different personas and experimental framings affect these AI agents' altruistic behavior in dictator games and compared their behaviors within the same LLM family, across various families, and with human behaviors. The findings reveal substantial variations and inconsistencies among LLMs and notable differences compared to human behaviors. Merely assigning a human-like identity to LLMs does not produce human-like behaviors. Despite being trained on extensive human-generated data, these AI agents are unable to capture the internal processes of human decision-making. Their alignment with human is highly variable and dependent on specific model architectures and prompt formulations; even worse, such dependence does not follow a clear pattern. LLMs can be useful task-specific tools but are not yet intelligent human-like agents.
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとしたエージェントが現実のタスクを担い、人間社会と関わり合うようになるにつれ、それらの行動はどの程度理解されているのか?
1) LLMエージェントの社会的行動(基本的社会的規範)が、異なるペルソナによってどのように誘導され、人間の行動に対してベンチマークされるか、(2) LLMエージェントの意思決定を評価するための行動科学的・社会科学的アプローチを導入する。
我々は、これらのAIエージェントの独裁者ゲームにおける利他的行動に異なるペルソナと実験的フレーミングがどう影響するかを調査し、同じLLMファミリー内での行動、様々な家族、人間の行動と比較した。
これらの結果から, LLMの変動と不整合が明らかとなり, 人間の行動に比較して顕著な差異が認められた。
単に人間のようなアイデンティティをLSMに割り当てるだけでは、人間のような振舞いは生じない。
これらのAIエージェントは、人為的なデータに基づいて訓練されているにもかかわらず、人間の意思決定の内部過程を捉えることはできない。
彼らの人間とのアライメントは高度に変動しており、特定のモデルアーキテクチャや迅速な定式化に依存している; さらに悪いことに、そのような依存は明確なパターンに従わない。
LLMはタスク固有のツールとして有用であるが、人間のようなインテリジェントなエージェントではない。
関連論文リスト
- Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina [7.155982875107922]
研究は、大規模言語モデル(LLM)が、経済実験、調査、政治談話において、人間の行動と整合した人間的な推論を示す可能性があることを示唆している。
このことから、LLMは社会科学研究において人間の代理やシミュレーションとして使用できると多くの人が提案している。
11~20のマネーリクエストゲームを用いてLCMの推論深度を評価する。
論文 参考訳(メタデータ) (2024-10-25T14:46:07Z) - Investigating Context Effects in Similarity Judgements in Large Language Models [6.421776078858197]
大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。
命令バイアスによる人的判断とLCMのアライメントに関する調査が進行中である。
論文 参考訳(メタデータ) (2024-08-20T10:26:02Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Human vs. Machine: Behavioral Differences Between Expert Humans and Language Models in Wargame Simulations [1.6108153271585284]
大規模言語モデル(LLM)は、高い軍事的意思決定シナリオにおいて、人間と異なる振る舞いを示す。
当社の結果は、自律性を認める前に政策立案者が慎重であること、あるいはAIベースの戦略レコメンデーションに従うことを動機付けています。
論文 参考訳(メタデータ) (2024-03-06T02:23:32Z) - LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。
そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。
我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文 参考訳(メタデータ) (2024-02-13T19:46:39Z) - Can Large Language Model Agents Simulate Human Trust Behavior? [81.45930976132203]
本研究では,Large Language Model (LLM) エージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
GPT-4は、信頼行動の観点から、人間と高い行動アライメントを示す。
また、エージェント信頼のバイアスや、他のLSMエージェントや人間に対するエージェント信頼の差についても検討する。
論文 参考訳(メタデータ) (2024-02-07T03:37:19Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Influence of External Information on Large Language Models Mirrors
Social Cognitive Patterns [51.622612759892775]
社会的認知理論は、人々が他人を観察して知識を習得する方法を説明する。
近年,大規模言語モデル(LLM)の急速な発展を目撃している。
LLMは、AIエージェントとして、その認知と行動を形成する外部情報を観察することができる。
論文 参考訳(メタデータ) (2023-05-08T16:10:18Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。