論文の概要: Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management
- arxiv url: http://arxiv.org/abs/2510.03310v1
- Date: Tue, 30 Sep 2025 20:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.741105
- Title: Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management
- Title(参考訳): 運転管理における人間行動シミュレータとしてのLCMの評価
- Authors: Runze Zhang, Xiaowei Zhang, Mingyang Zhao,
- Abstract要約: LLMは、ビジネス、経済学、社会科学における人間の振る舞いをシミュレートする新しいツールである。
本稿では, LLM が操作管理における人間行動の再現性を評価する。
- 参考スコア(独自算出の注目度): 11.302500716500893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLMs are emerging tools for simulating human behavior in business, economics, and social science, offering a lower-cost complement to laboratory experiments, field studies, and surveys. This paper evaluates how well LLMs replicate human behavior in operations management. Using nine published experiments in behavioral operations, we assess two criteria: replication of hypothesis-test outcomes and distributional alignment via Wasserstein distance. LLMs reproduce most hypothesis-level effects, capturing key decision biases, but their response distributions diverge from human data, including for strong commercial models. We also test two lightweight interventions -- chain-of-thought prompting and hyperparameter tuning -- which reduce misalignment and can sometimes let smaller or open-source models match or surpass larger systems.
- Abstract(参考訳): LLMは、ビジネス、経済学、社会科学における人間の振る舞いをシミュレートするための新しいツールであり、実験室実験、フィールドスタディ、サーベイの低コスト補完を提供する。
本稿では, LLM が操作管理における人間行動の再現性を評価する。
行動操作における9つの実験を用いて,仮説テスト結果の再現と,ワッサーシュタイン距離による分布アライメントの2つの基準を評価する。
LLMは、ほとんどの仮説レベルの効果を再現し、重要な決定バイアスをキャプチャするが、その応答分布は強力な商用モデルを含む人間のデータから分岐する。
また、2つの軽量な介入 -- チェーン・オブ・思想のプロンプトとハイパーパラメータのチューニング -- もテストしています。
関連論文リスト
- Can Generative AI agents behave like humans? Evidence from laboratory market experiments [0.0]
経済市場実験において,人間の行動を再現する大規模言語モデルの可能性を探る。
実験室で観察されたLLM行動と市場動態を比較し,人間の行動との整合性を評価する。
これらの結果から,LLMは経済的文脈における現実的な人間の行動のシミュレーションツールとして有望であることが示唆された。
論文 参考訳(メタデータ) (2025-05-12T11:44:46Z) - Prompting is Not All You Need! Evaluating LLM Agent Simulation Methodologies with Real-World Online Customer Behavior Data [62.61900377170456]
人間の行動のシミュレーションにおいて「主観的信頼性」よりも「LLMの客観的精度」を評価することに重点を置いている。
本稿では,Web ショッピング行動生成の課題に対して,最先端 LLM の総合評価を行った。
論文 参考訳(メタデータ) (2025-03-26T17:33:27Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。
このサンプリング行動が人間の意思決定と類似していることが示される。
統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。