論文の概要: Large Language Models Assume People are More Rational than We Really are
- arxiv url: http://arxiv.org/abs/2406.17055v1
- Date: Mon, 24 Jun 2024 18:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:40:56.021082
- Title: Large Language Models Assume People are More Rational than We Really are
- Title(参考訳): 大規模言語モデルは、人々が実際より合理的であると仮定する
- Authors: Ryan Liu, Jiayi Geng, Joshua C. Peterson, Ilia Sucholutsky, Thomas L. Griffiths,
- Abstract要約: AIが人と効果的にコミュニケーションするためには、意思決定の仕方を理解する必要があります。
以前の実証的な証拠は、これらの暗黙のモデルが正確であることを示唆しているようである。
人々の選択をシミュレートし、予測する場合は、実際にはそうではありません。
- 参考スコア(独自算出の注目度): 10.857040292234984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In order for AI systems to communicate effectively with people, they must understand how we make decisions. However, people's decisions are not always rational, so the implicit internal models of human decision-making in Large Language Models (LLMs) must account for this. Previous empirical evidence seems to suggest that these implicit models are accurate -- LLMs offer believable proxies of human behavior, acting how we expect humans would in everyday interactions. However, by comparing LLM behavior and predictions to a large dataset of human decisions, we find that this is actually not the case: when both simulating and predicting people's choices, a suite of cutting-edge LLMs (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) assume that people are more rational than we really are. Specifically, these models deviate from human behavior and align more closely with a classic model of rational choice -- expected value theory. Interestingly, people also tend to assume that other people are rational when interpreting their behavior. As a consequence, when we compare the inferences that LLMs and people draw from the decisions of others using another psychological dataset, we find that these inferences are highly correlated. Thus, the implicit decision-making models of LLMs appear to be aligned with the human expectation that other people will act rationally, rather than with how people actually act.
- Abstract(参考訳): AIシステムが人々と効果的にコミュニケーションするためには、意思決定方法を理解する必要があります。
しかし、人々の決定は必ずしも合理的であるとは限らないので、Large Language Models (LLM)における人間の意思決定の暗黙の内的モデルが、これを考慮しなければならない。
これまでの実証的な証拠は、これらの暗黙のモデルが正確であることを示唆しているようだ。
しかし、LLMの振る舞いと予測を人間の意思決定の大きなデータセットと比較すると、実際にはそうではないことが分かる。人々の選択をシミュレートし、予測する場合、最先端のLCM(GPT-4o、4-Turbo、Llama-3-8B、70B、Claude 3 Opus)のスイートは、人々が実際よりも合理的であると仮定する。
具体的には、これらのモデルは人間の行動から逸脱し、合理的選択の古典的なモデルである期待値理論とより密接に一致します。
興味深いことに、他人の振る舞いを解釈するとき、他人が合理的であると仮定する傾向がある。
その結果、LLMと人々が他の心理的データセットを用いて他人の判断から引き出す推論を比較すると、これらの推論は高い相関関係があることが判明した。
したがって、LCMの暗黙的な意思決定モデルは、人々が実際にどのように行動するかではなく、他の人が合理的に行動するという人間の期待と一致しているように見える。
関連論文リスト
- Explicit and Implicit Large Language Model Personas Generate Opinions but Fail to Replicate Deeper Perceptions and Biases [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。
これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。
我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文 参考訳(メタデータ) (2024-06-20T16:24:07Z) - Do Large Language Models Perform the Way People Expect? Measuring the Human Generalization Function [3.7078759896522953]
大規模言語モデル(LLM)を多種多様な用途で評価する。
私たちは、これらのデプロイメント決定が人々によってなされる状況を考えます。
MMLUとBIG-Benchベンチマークから、79のタスクにまたがる一般化の例を19Kのデータセットで収集する。
論文 参考訳(メタデータ) (2024-06-03T14:45:21Z) - Are Large Language Models Aligned with People's Social Intuitions for Human-Robot Interactions? [7.308479353736709]
大規模言語モデル(LLM)は、ロボット工学、特にハイレベルな行動計画にますます使われている。
本研究では,人間とロボットの相互作用のシナリオにおいて,LLMが人々の直感やコミュニケーションを再現するかどうかを検証する。
視覚モデルでは映像刺激の本質を捉えることができず、LLMは人よりもコミュニケーション行動や行動を評価する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-03-08T22:23:23Z) - (Ir)rationality and Cognitive Biases in Large Language Models [2.9008806248012333]
認知心理学文献からのタスクを用いた7つの言語モデルの評価を行った。
人間と同じく、LLMはこれらのタスクに不合理性を示す。
これらのタスクに対してLLMによって誤った答えが与えられる場合、それらはしばしば人間のようなバイアスとは異なる方法で間違っている。
論文 参考訳(メタデータ) (2024-02-14T14:17:21Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Do Models Explain Themselves? Counterfactual Simulatability of Natural
Language Explanations [62.61495090463084]
大規模言語モデル(LLM)は、人間の決定を説明するために人間を模倣するために訓練されている。
そこで本研究では,人間による多種多様なファクトファクトに対して,モデルの出力を正確に推定できるかどうかを検証した。
LLMの説明は精度が低く、精度は妥当性と相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-17T17:41:47Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Indecision Modeling [50.00689136829134]
AIシステムは人間の価値観に合わせて行動することが重要である。
人々はしばしば決定的ではなく、特に彼らの決定が道徳的な意味を持つときです。
論文 参考訳(メタデータ) (2020-12-15T18:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。