論文の概要: Stop Drawing Scientific Claims from LLM Social Simulations Without Robustness Audits
- arxiv url: http://arxiv.org/abs/2605.18890v1
- Date: Sun, 17 May 2026 00:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.85208
- Title: Stop Drawing Scientific Claims from LLM Social Simulations Without Robustness Audits
- Title(参考訳): ロバスト性監査のないLLM社会シミュレーションから科学的主張を引き出すのをやめる
- Authors: Jinyi Ye, Lei Cao, Ding Chen, Emilio Ferrara,
- Abstract要約: 生成エージェントはエージェントベースのモデリングに新しい表現力をもたらす。
研究者にとって小さな摂動は、マクロレベルの結果にカスケードすることができる。
TRAILSは3段階のシミュレーション設計にまたがる頑健性監査型分類法である。
- 参考スコア(独自算出の注目度): 11.902271500463934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scientific claims drawn from LLM social simulations should be no stronger than the robustness audits that support them. Generative agents bring new expressive power to agent-based modeling, enabling simulations of collective social processes like cooperation, polarization, and norm formation. Yet they also introduce complexity through additional architectural choices, such as agent specification, memory representation, interaction protocols, and environment design. Small perturbations that appear minor to researchers can cascade into macro-level outcomes through repeated interaction, creating a "butterfly effect." Consequently, scientific claims drawn from LLM social simulations may reflect implementation artifacts rather than the social mechanisms being modeled. We support this position with two case studies: a repeated Prisoner's Dilemma and a social media echo chamber simulation. Across multiple models, minor perturbations in persona format and game-instruction framing shift cooperation rates by up to 76 percentage points, while network homophily and hub assignment produce significant and consistent shifts in polarization metrics. We also find that sensitivity is unevenly distributed across both architectural choices and model families: the same perturbation that produces the 76 pp shift in one frontier model only shifts another by 1 pp. Robustness is therefore a property that should be measured per claim and per model, not assumed. To address this validation gap, we introduce TRAILS (Taxonomy for Robustness Audits In LLM Simulations), a robustness-audit taxonomy spanning three levels of simulation design: agent (micro-level), interaction (meso-level), and system (macro-level). We call for robustness to become a first-order validation requirement before LLM social simulations are used to explain mechanisms, evaluate interventions, or inform decisions.
- Abstract(参考訳): LLMの社会シミュレーションから引き出された科学的主張は、それらをサポートする堅牢性監査よりも強いものであってはならない。
生成エージェントは、エージェントベースのモデリングに新しい表現力をもたらし、協調、分極、規範形成といった社会プロセスのシミュレーションを可能にする。
さらに、エージェント仕様、メモリ表現、インタラクションプロトコル、環境設計など、追加のアーキテクチャ選択を通じて複雑さを導入する。
研究者にとって小さな摂動は、反復的な相互作用を通じてマクロレベルの結果にカスケードし、「バタフライ効果」を生み出す。
したがって、LLMの社会シミュレーションから引き出された科学的主張は、モデル化されている社会メカニズムよりも実装成果を反映する可能性がある。
本研究は,囚人ジレンマとソーシャルメディアエコーチャンバーシミュレーションの2つのケーススタディにより,この立場を支持した。
複数のモデルにまたがって、ペルソナ形式の小さな摂動とゲーム命令のフレーミングシフト協力率を最大76ポイント向上させ、ネットワークのホモフィリとハブ割り当ては偏極測定において有意かつ一貫したシフトをもたらす。
1つのフロンティアモデルにおいて76ppシフトを生み出す同じ摂動は、1ppシフトだけである。
したがって、ロバスト性はクレームやモデルごとに測定されるべきであり、想定されない性質である。
この検証ギャップに対処するため, TRAILS (Taxonomy for Robustness Audits In LLM Simulations) を導入し, エージェント (マイクロレベル), インタラクション (メソレベル), システム (マクロレベル) の3つのレベルにまたがる頑健な分類法を提案する。
LLMの社会シミュレーションが、メカニズムの説明、介入の評価、決定の伝達に使用される前に、ロバストネスが一階の検証要件になるように要求する。
関連論文リスト
- Position: AI Agents Are Not (Yet) a Panacea for Social Simulation [62.891898598784415]
大規模言語モデル(LLM)の最近の進歩は、社会シミュレーションにLLM統合エージェントを使うことへの関心が高まっている。
このポジションペーパーは、LSMをベースとしたエージェントは社会シミュレーションのパナセアではないと主張している。
論文 参考訳(メタデータ) (2026-02-19T06:35:07Z) - PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling [47.029742241618635]
大規模言語モデル(LLM)に基づくマルチエージェントシステムでは,表現的エージェント推論が可能であるが,拡張性は高く,時間段階整合状態遷移シミュレーションではキャリブレーションが不十分である。
本研究では,推論を行動コヒーレントなエージェントクラスタにシフトさせる物理AgentABMを提案する。
公衆衛生、ファイナンス、社会科学における実験は、機械的、神経的、LLMベースラインに対する事象時の精度と校正において一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-05T18:59:01Z) - SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - Integrating LLM in Agent-Based Social Simulation: Opportunities and Challenges [0.7739037410679168]
本稿では,人間の認知の重要な側面を再現する大規模言語モデルの能力に関する最近の知見をレビューする。
第2部はマルチエージェント・シミュレーション・フレームワークにおけるLLMの新しい応用について調査している。
この論文は、従来のエージェントベースモデリングプラットフォームにLLMを統合するハイブリッドアプローチを提唱することで締めくくっている。
論文 参考訳(メタデータ) (2025-07-25T15:15:35Z) - LLM-Based Social Simulations Require a Boundary [3.351170542925928]
大規模言語モデル(LLM)に基づく社会シミュレーションは明確な境界を確立するべきである。
本稿では、アライメント(実世界のパターンにマッチするシミュレーション行動)、一貫性(時間とともに一貫性のあるエージェント動作を維持する)、堅牢性という3つの重要な境界問題について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:14:47Z) - Sense and Sensitivity: Evaluating the simulation of social dynamics via Large Language Models [27.313165173789233]
大規模言語モデルは、社会力学をシミュレートする古典的エージェントベースモデル(ABM)の強力な代替物として提案されている。
しかし、LLMのブラックボックスの性質から、LLMエージェントが実際に意図した意味論を実行するかどうかは不明である。
目的とする力学を近似するプロンプトを設計することは可能であるが、これらのシミュレーションの品質はプロンプトの特定の選択に非常に敏感である。
論文 参考訳(メタデータ) (2024-12-06T14:50:01Z) - GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [71.04084063541777]
ランク付けのためのカウンターファクトラーニングはIRコミュニティで広く注目を集めている。
モデルは、ユーザの振る舞いの仮定が正しく、確率推定が正確であるときに理論的に非バイアス化される。
それらの有効性は通常シミュレーションベースの実験を通じて実証的に評価されるが、これは広く利用可能な大規模で実際のクリックログが不足しているためである。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。