論文の概要: Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces
- arxiv url: http://arxiv.org/abs/2604.08362v1
- Date: Thu, 09 Apr 2026 15:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.994136
- Title: Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces
- Title(参考訳): 実世界の人間行動シミュレーションに向けて--長距離・クロスシナリオ・異種行動トレースに基づく大規模言語モデルのベンチマーク
- Authors: Jiawei Chen, Ruoxi Xu, Boxi Cao, Ruotong Pan, Yunfei Zhang, Yifei Hu, Yong Du, Tingting Gao, Yaojie Lu, Yingfei Sun, Xianpei Han, Le Sun, Xiangyu Wu, Hongyu Lin,
- Abstract要約: 我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。
現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
- 参考スコア(独自算出の注目度): 81.41397370235102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Large Language Models (LLMs) has illuminated the potential for a general-purpose user simulator. However, existing benchmarks remain constrained to isolated scenarios, narrow action spaces, or synthetic data, failing to capture the holistic nature of authentic human behavior. To bridge this gap, we introduce OmniBehavior, the first user simulation benchmark constructed entirely from real-world data, integrating long-horizon, cross-scenario, and heterogeneous behavioral patterns into a unified framework. Based on this benchmark, we first provide empirical evidence that previous datasets with isolated scenarios suffer from tunnel vision, whereas real-world decision-making relies on long-term, cross-scenario causal chains. Extensive evaluations of state-of-the-art LLMs reveal that current models struggle to accurately simulate these complex behaviors, with performance plateauing even as context windows expand. Crucially, a systematic comparison between simulated and authentic behaviors uncovers a fundamental structural bias: LLMs tend to converge toward a positive average person, exhibiting hyper-activity, persona homogenization, and a Utopian bias. This results in the loss of individual differences and long-tail behaviors, highlighting critical directions for future high-fidelity simulation research.
- Abstract(参考訳): LLM(Large Language Models)の出現は、汎用ユーザシミュレータの可能性を浮き彫りにした。
しかし、既存のベンチマークは、孤立したシナリオ、狭いアクション空間、あるいは合成データに制約され続けており、真の人間の行動の全体的性質を捉えていない。
このギャップを埋めるために、私たちはOmniBehaviorを紹介します。OmniBehaviorは、現実世界のデータから完全に構築された最初のユーザーシミュレーションベンチマークで、長い水平、クロスシナリオ、ヘテロジニアスな振る舞いパターンを統一されたフレームワークに統合します。
このベンチマークに基づいて、我々はまず、孤立したシナリオを持つ以前のデータセットがトンネルビジョンに悩まされているという実証的な証拠を提示する。
最先端のLCMの広範囲な評価により、現在のモデルでは、コンテキストウィンドウが拡大しても、パフォーマンスの平坦化とともに、これらの複雑な振る舞いを正確にシミュレートするのに苦労していることが明らかとなった。
LLMは肯定的な平均的な人に向かって収束し、超活動性、ペルソナ均質化、ユートピアバイアスを示す傾向がある。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
関連論文リスト
- SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - MF-LLM: Simulating Population Decision Dynamics via a Mean-Field Large Language Model Framework [53.82097200295448]
MF-LLM(Mean-Field LLM)は,まず平均場理論を社会シミュレーションに取り入れる。
MF-LLMは反復過程を通じて個人と人口間の双方向相互作用をモデル化する。
IB-Tuneは、Information Bottleneckの原理にインスパイアされた、新しい微調整手法である。
論文 参考訳(メタデータ) (2025-04-30T12:41:51Z) - CausalMan: A physics-based simulator for large-scale causality [16.93123199555512]
実世界の生産ラインをモデルとしたCausalManシミュレータを提示する。
コントリビューションとして,CausalManの大規模シミュレータをリリースする。
論文 参考訳(メタデータ) (2025-02-18T10:20:22Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。