論文の概要: Improving Behavioral Alignment in LLM Social Simulations via Context Formation and Navigation
- arxiv url: http://arxiv.org/abs/2601.01546v1
- Date: Sun, 04 Jan 2026 14:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.519185
- Title: Improving Behavioral Alignment in LLM Social Simulations via Context Formation and Navigation
- Title(参考訳): LLM社会シミュレーションにおける文脈形成とナビゲーションによる行動アライメントの改善
- Authors: Letian Kong, Qianran, Jin, Renyu Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、実験環境での人間の振る舞いをシミュレートするために、ますます使われている。
LLMは複雑な意思決定環境において、人間の決定から体系的に分岐する。
行動アライメントを改善するための2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to simulate human behavior in experimental settings, but they systematically diverge from human decisions in complex decision-making environments, where participants must anticipate others' actions and form beliefs based on observed behavior. We propose a two-stage framework for improving behavioral alignment. The first stage, context formation, explicitly specifies the experimental design to establish an accurate representation of the decision task and its context. The second stage, context navigation, guides the reasoning process within that representation to make decisions. We validate this framework through a focal replication of a sequential purchasing game with quality signaling (Kremer and Debo, 2016), extending to a crowdfunding game with costly signaling (Cason et al., 2025) and a demand-estimation task (Gui and Toubia, 2025) to test generalizability across decision environments. Across four state-of-the-art (SOTA) models (GPT-4o, GPT-5, Claude-4.0-Sonnet-Thinking, DeepSeek-R1), we find that complex decision-making environments require both stages to achieve behavioral alignment with human benchmarks, whereas the simpler demand-estimation task requires only context formation. Our findings clarify when each stage is necessary and provide a systematic approach for designing and diagnosing LLM social simulations as complements to human subjects in behavioral research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、実験環境での人間の振る舞いをシミュレートするために用いられることが多いが、複雑な意思決定環境では、参加者が他人の行動を予測し、観察された行動に基づいて信念を形成するという、体系的に人間の決定から分岐する。
行動アライメントを改善するための2段階のフレームワークを提案する。
第1段階、文脈形成は、決定タスクとそのコンテキストの正確な表現を確立するための実験設計を明確に規定する。
第2のステージであるコンテキストナビゲーションは、その表現内の推論プロセスをガイドして意思決定を行う。
高品質なシグナリングを備えたシーケンシャルな購入ゲーム(Kremer and Debo, 2016)の焦点複製によって,コストのかかるシグナリング(Cason et al , 2025)と需要推定タスク(Gui and Toubia, 2025)に拡張して,意思決定環境間の一般化性をテストする。
4つの最先端(SOTA)モデル(GPT-4o, GPT-5, Claude-4.0-Sonnet-Thinking, DeepSeek-R1)にまたがって、複雑な意思決定環境は、人間のベンチマークと行動アライメントを達成するために両方の段階を必要とするのに対し、単純な要求推定タスクはコンテキスト形成のみを必要とする。
本研究は, LLMの社会シミュレーションを, 行動研究における被験者の補完として設計し, 診断するための体系的アプローチとして, それぞれの段階がいつ必要かを明らかにするものである。
関連論文リスト
- Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - How Far are LLMs from Being Our Digital Twins? A Benchmark for Persona-Based Behavior Chain Simulation [30.713599131902566]
本稿では,デジタル双生児が連続した人間の行動をシミュレートする能力を評価する最初のベンチマークであるBehavimentChainを紹介する。
BehaviorChainは、多種多様で高品質なペルソナベースの行動連鎖で構成され、1,001のユニークなペルソナに対して15,846の異なる振る舞いがある。
総合的な評価結果は、最先端モデルでさえ、連続した人間の行動の正確なシミュレートに苦慮していることを示している。
論文 参考訳(メタデータ) (2025-02-20T15:29:32Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。