論文の概要: HumanStudy-Bench: Towards AI Agent Design for Participant Simulation
- arxiv url: http://arxiv.org/abs/2602.00685v1
- Date: Sat, 31 Jan 2026 12:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.336473
- Title: HumanStudy-Bench: Towards AI Agent Design for Participant Simulation
- Title(参考訳): HumanStudy-Bench:参加者シミュレーションのためのAIエージェント設計を目指して
- Authors: Xuan Liu, Haoyang Shang, Zizhang Liu, Xinyan Liu, Yunze Xiao, Yiwen Tu, Haojian Jin,
- Abstract要約: 大規模言語モデル (LLMs) は、社会科学実験のシミュレーション参加者としてますます使われている。
HUMANSTUDY-BENCHは、LLMベースのエージェントを編成し、人体実験を再構築するベンチマークおよび実行エンジンである。
科学的推論のレベルでの忠実度を評価するために,人間とエージェントの行動がどの程度一致しているかを定量化するための新しい指標を提案する。
- 参考スコア(独自算出の注目度): 11.906370453952265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as simulated participants in social science experiments, but their behavior is often unstable and highly sensitive to design choices. Prior evaluations frequently conflate base-model capabilities with experimental instantiation, obscuring whether outcomes reflect the model itself or the agent setup. We instead frame participant simulation as an agent-design problem over full experimental protocols, where an agent is defined by a base model and a specification (e.g., participant attributes) that encodes behavioral assumptions. We introduce HUMANSTUDY-BENCH, a benchmark and execution engine that orchestrates LLM-based agents to reconstruct published human-subject experiments via a Filter--Extract--Execute--Evaluate pipeline, replaying trial sequences and running the original analysis pipeline in a shared runtime that preserves the original statistical procedures end to end. To evaluate fidelity at the level of scientific inference, we propose new metrics to quantify how much human and agent behaviors agree. We instantiate 12 foundational studies as an initial suite in this dynamic benchmark, spanning individual cognition, strategic interaction, and social psychology, and covering more than 6,000 trials with human samples ranging from tens to over 2,100 participants.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会科学実験のシミュレーション参加者として使われることが多いが、その行動はしばしば不安定であり、設計選択に非常に敏感である。
以前の評価では、モデル自体を反映するかエージェントの設定を無視して、実験的なインスタンス化でベースモデル機能を分割することが多かった。
そこでは, エージェントを基本モデルと, 動作仮定を符号化した仕様(例えば, 参加者属性)で定義する。
HUMANSTUDY-BENCHは,LLMをベースとしたエージェントを編成し,フィルタ-抽出-実行-評価パイプラインを経由し,試行シーケンスを再生し,元の解析パイプラインを共通ランタイムで実行し,元の統計手順を最後まで保存する。
科学的推論のレベルでの忠実度を評価するために,人間とエージェントの行動がどの程度一致しているかを定量化するための新しい指標を提案する。
このダイナミックなベンチマークにおいて、12の基礎研究を初期スイートとしてインスタンス化し、個人の認知、戦略的相互作用、社会心理学にまたがり、数十人から2100人以上の被験者による6,000以上の臨床試験をカバーした。
関連論文リスト
- Large language models replicate and predict human cooperation across experiments in game theory [0.8166364251367626]
大きな言語モデルが実際の人間の意思決定をいかに反映しているかは、いまだに理解されていない。
我々は,ゲーム理論実験のディジタルツインを開発し,機械行動評価のためのシステマティック・プロンプトと探索の枠組みを導入する。
Llamaは人間の協調パターンを高い忠実度で再現し、合理的選択理論から人間の偏差を捉える。
論文 参考訳(メタデータ) (2025-11-06T16:21:27Z) - LLMs Can Simulate Standardized Patients via Agent Coevolution [8.539733225671059]
標準化された患者(SP)を用いた医療従事者の養成は、依然として複雑な課題である。
EvoPatientは、患者エージェントと医師エージェントがマルチターン対話を通じて診断プロセスをシミュレートする、新しいシミュレートされた患者フレームワークである。
我々のフレームワークは、既存の推論手法を10%以上改善し、要求アライメントと人間の嗜好を改善する。
論文 参考訳(メタデータ) (2024-12-16T12:36:47Z) - Generative Agent Simulations of 1,000 People [56.82159813294894]
本稿では,1,052人の実人の態度と行動をシミュレートする新しいエージェントアーキテクチャを提案する。
生成エージェントは一般社会調査の参加者の回答を85%の精度で再現する。
我々のアーキテクチャは、人種的およびイデオロギー的グループにおける正確さのバイアスを、人口統計学的記述のエージェントと比較して低減する。
論文 参考訳(メタデータ) (2024-11-15T11:14:34Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [71.04084063541777]
ランク付けのためのカウンターファクトラーニングはIRコミュニティで広く注目を集めている。
モデルは、ユーザの振る舞いの仮定が正しく、確率推定が正確であるときに理論的に非バイアス化される。
それらの有効性は通常シミュレーションベースの実験を通じて実証的に評価されるが、これは広く利用可能な大規模で実際のクリックログが不足しているためである。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。