論文の概要: Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making
- arxiv url: http://arxiv.org/abs/2508.15926v1
- Date: Thu, 21 Aug 2025 18:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.169397
- Title: Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making
- Title(参考訳): 騒音, 適応, 戦略: 意思決定におけるLCMの忠実度の評価
- Authors: Yuanjun Feng, Vivek Choudhary, Yash Raj Shrestha,
- Abstract要約: 大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。
本研究では,LLMエージェントが外部誘導と人為的ノイズのレベルが異なる条件下でどのように適応するかを検討するためのプロセス指向評価フレームワークを提案する。
LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
- 参考スコア(独自算出の注目度): 0.030586855806896043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used in social science simulations. While their performance on reasoning and optimization tasks has been extensively evaluated, less attention has been paid to their ability to simulate human decision-making's variability and adaptability. We propose a process-oriented evaluation framework with progressive interventions (Intrinsicality, Instruction, and Imitation) to examine how LLM agents adapt under different levels of external guidance and human-derived noise. We validate the framework on two classic economics tasks, irrationality in the second-price auction and decision bias in the newsvendor problem, showing behavioral gaps between LLMs and humans. We find that LLMs, by default, converge on stable and conservative strategies that diverge from observed human behaviors. Risk-framed instructions impact LLM behavior predictably but do not replicate human-like diversity. Incorporating human data through in-context learning narrows the gap but fails to reach human subjects' strategic variability. These results highlight a persistent alignment gap in behavioral fidelity and suggest that future LLM evaluations should consider more process-level realism. We present a process-oriented approach for assessing LLMs in dynamic decision-making tasks, offering guidance for their application in synthetic data for social science research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。
推論と最適化タスクのパフォーマンスは広く評価されているが、人間の意思決定の多様性と適応性をシミュレートする能力にはあまり注意が払われていない。
本研究では,段階的介入(内在性,指導性,模倣性)を伴うプロセス指向評価フレームワークを提案する。
我々は,2つの古典的経済学的課題,すなわち第2価格オークションの不合理性,およびニュースベンダ問題における決定バイアスに関する枠組みを検証し,LLMと人間の間の行動的ギャップを示す。
LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
リスクベースの指示は、LSMの行動に予測可能に影響を与えるが、人間のような多様性を再現しない。
文脈内学習を通じて人間のデータを組み込むことは、ギャップを狭めるが、人間の戦略的変動に到達できない。
これらの結果は、行動の忠実度における永続的なアライメントギャップを浮き彫りにし、将来のLCM評価はよりプロセスレベルのリアリズムを考慮するべきであることを示唆している。
本稿では, 動的意思決定タスクにおけるLCMの評価をプロセス指向で行う手法を提案し, 社会科学研究のための合成データに適用するためのガイダンスを提供する。
関連論文リスト
- How large language models judge and influence human cooperation [82.07571393247476]
我々は、最先端の言語モデルが協調行動をどのように判断するかを評価する。
我々は、善良な相手との協力を評価する際、顕著な合意を守ります。
モデル間の差異が協調の頻度に大きく影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-30T09:14:42Z) - Comparing Exploration-Exploitation Strategies of LLMs and Humans: Insights from Standard Multi-armed Bandit Tasks [6.355245936740126]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクにおいて、人間の振る舞いをシミュレートしたり、自動化したりするためにますます使われている。
我々は、不確実性の下での動的意思決定の基本的な側面である、探査・探索(E&E)トレードオフに焦点を当てる。
推論は、ランダムな探索と指向的な探索の混在を特徴とする、より人間的な行動へとLSMをシフトさせる。
論文 参考訳(メタデータ) (2025-05-15T02:09:18Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。