論文の概要: Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents
- arxiv url: http://arxiv.org/abs/2602.05597v1
- Date: Thu, 05 Feb 2026 12:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.923321
- Title: Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents
- Title(参考訳): GPT会話エージェントを用いた集団選択行動とバイアスのエミュレート
- Authors: Stephen Pilli, Vivek Nallur,
- Abstract要約: 大規模言語モデル(LLM)は、よく知られたバイアスを再現することが示されている。
我々は,3つの確立された意思決定シナリオを会話環境に適応させ,人間の実験を行った。
人間の行動をどのように整合させるかという点において,モデル間に顕著な違いが認められた。
- 参考スコア(独自算出の注目度): 0.48439699124726004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cognitive biases often shape human decisions. While large language models (LLMs) have been shown to reproduce well-known biases, a more critical question is whether LLMs can predict biases at the individual level and emulate the dynamics of biased human behavior when contextual factors, such as cognitive load, interact with these biases. We adapted three well-established decision scenarios into a conversational setting and conducted a human experiment (N=1100). Participants engaged with a chatbot that facilitates decision-making through simple or complex dialogues. Results revealed robust biases. To evaluate how LLMs emulate human decision-making under similar interactive conditions, we used participant demographics and dialogue transcripts to simulate these conditions with LLMs based on GPT-4 and GPT-5. The LLMs reproduced human biases with precision. We found notable differences between models in how they aligned human behavior. This has important implications for designing and evaluating adaptive, bias-aware LLM-based AI systems in interactive contexts.
- Abstract(参考訳): 認知バイアスは、しばしば人間の決定を形作る。
大きな言語モデル(LLM)は、よく知られたバイアスを再現することが示されているが、より重要な問題は、LLMが個々のレベルでバイアスを予測し、認知的負荷のような文脈的要因がこれらのバイアスと相互作用する際のバイアスされた人間の行動のダイナミクスをエミュレートできるかどうかである。
我々は,3つの確立された意思決定シナリオを会話環境に適応させ,人間実験(N=1100)を行った。
参加者は単純な対話や複雑な対話を通じて意思決定を容易にするチャットボットに携わる。
その結果,頑健なバイアスが認められた。
GPT-4 と GPT-5 に基づいて,LLM が人間の意思決定をどのようにエミュレートするかを評価するために,参加者の人口動態と対話書き起こしを用いて,これらの条件を LLM でシミュレートした。
LLMは人間のバイアスを精度良く再現した。
人間の行動をどのように整合させるかという点において,モデル間に顕著な違いが認められた。
これは、適応的でバイアス対応のLLMベースのAIシステムをインタラクティブなコンテキストで設計し、評価する上で重要な意味を持つ。
関連論文リスト
- Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution [7.599497643290519]
大規模言語モデル (LLMs) は、社会的環境における人間の振る舞いをシミュレートするためにますます使われている。
これらのシミュレーションがヒトで観察される性格行動パターンを再現するかどうかは不明である。
論文 参考訳(メタデータ) (2026-02-07T07:20:24Z) - Predicting Biased Human Decision-Making with Large Language Models in Conversational Settings [0.48439699124726004]
大規模言語モデル(LLM)は,会話環境において偏りのある意思決定を予測できることを示す。
また、これらの予測は人間の認知バイアスだけでなく、その影響が認知負荷の下でどのように変化するかも捉える。
論文 参考訳(メタデータ) (2026-01-16T07:30:21Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Investigating Context Effects in Similarity Judgements in Large Language Models [6.421776078858197]
大規模言語モデル(LLM)は、自然言語テキストの理解と生成におけるAIモデルの能力に革命をもたらした。
命令バイアスによる人的判断とLCMのアライメントに関する調査が進行中である。
論文 参考訳(メタデータ) (2024-08-20T10:26:02Z) - Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。
これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。
我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文 参考訳(メタデータ) (2024-06-20T16:24:07Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。