論文の概要: The PIMMUR Principles: Ensuring Validity in Collective Behavior of LLM Societies
- arxiv url: http://arxiv.org/abs/2509.18052v1
- Date: Mon, 22 Sep 2025 17:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.538109
- Title: The PIMMUR Principles: Ensuring Validity in Collective Behavior of LLM Societies
- Title(参考訳): PIMMUR原則:LLM社会の集団行動における妥当性の確保
- Authors: Jiaxu Zhou, Jen-tse Huang, Xuhui Zhou, Man Ho Lam, Xintao Wang, Hao Zhu, Wenxuan Wang, Maarten Sap,
- Abstract要約: 近年の研究では,これらの主張の妥当性を体系的に損なうような実験的な設計が採用されていることが判明した。
40以上の論文を対象とした調査から, 再発する6つの方法論的欠陥を同定した。
我々は、これらの6つの要件をPIMMUR原則として定式化し、信頼性LLMに基づく社会シミュレーションに必要な条件であると主張している。
- 参考スコア(独自算出の注目度): 46.27915760967977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used for social simulation, where populations of agents are expected to reproduce human-like collective behavior. However, we find that many recent studies adopt experimental designs that systematically undermine the validity of their claims. From a survey of over 40 papers, we identify six recurring methodological flaws: agents are often homogeneous (Profile), interactions are absent or artificially imposed (Interaction), memory is discarded (Memory), prompts tightly control outcomes (Minimal-Control), agents can infer the experimental hypothesis (Unawareness), and validation relies on simplified theoretical models rather than real-world data (Realism). For instance, GPT-4o and Qwen-3 correctly infer the underlying social experiment in 53.1% of cases when given instructions from prior work-violating the Unawareness principle. We formalize these six requirements as the PIMMUR principles and argue they are necessary conditions for credible LLM-based social simulation. To demonstrate their impact, we re-run five representative studies using a framework that enforces PIMMUR and find that the reported social phenomena frequently fail to emerge under more rigorous conditions. Our work establishes methodological standards for LLM-based multi-agent research and provides a foundation for more reliable and reproducible claims about "AI societies."
- Abstract(参考訳): 大規模言語モデル (LLM) は, エージェントの個体群が人間のような集団行動の再現を期待する社会シミュレーションにますます利用されている。
しかし、近年の研究では、これらの主張の妥当性を体系的に損なうような実験的な設計が採用されていることが判明した。
エージェントは、しばしば均質である(Profile)、相互作用が欠如しているか人工的に強制される(Interaction)、メモリが破棄される(Memory)、厳密に制御された結果(Minimal-Control)、エージェントは実験的な仮説(Unawareness)を推測し、検証は現実世界のデータ(Realism)よりも単純な理論モデルに依存する。
例えば、GPT-4o と Qwen-3 は、Unawareness 原則に違反する以前の作業からの指示が与えられた場合の53.1%のケースにおいて、基礎となる社会実験を正しく推測する。
我々は、これらの6つの要件をPIMMUR原則として定式化し、信頼性LLMに基づく社会シミュレーションに必要な条件であると主張している。
これらの影響を示すために,PIMMURを強制する枠組みを用いて5つの代表的な研究を再実施し,より厳密な条件下では,報告された社会現象がしばしば出現しないことを示す。
本研究は, LLMに基づくマルチエージェント研究の方法論標準を確立し, 「AI社会」に関するより信頼性が高く再現可能な主張の基盤を提供する。
関連論文リスト
- Population-Aligned Persona Generation for LLM-based Social Simulation [58.8436379542149]
本稿では,社会シミュレーションのための高品質な集団対応ペルソナ集合を合成するための体系的枠組みを提案する。
我々のアプローチは、長期のソーシャルメディアデータから物語的ペルソナを生成するために、大きな言語モデルを活用することから始まる。
特定のシミュレーションコンテキストのニーズに対処するために,対象のサブポピュレーションに対してグローバルに整合したペルソナを適応させるタスク固有モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-12T10:43:47Z) - Simulating Generative Social Agents via Theory-Informed Workflow Design [11.992123170134185]
社会エージェントのための体系的設計プロセスを提供する理論インフォームド・フレームワークを提案する。
私たちのフレームワークは、社会的認知理論の原則に基づいており、モチベーション、行動計画、学習という3つの重要なモジュールを導入しています。
実験により, 複雑な条件下での現実的な人間の行動パターンを再現できることが実証された。
論文 参考訳(メタデータ) (2025-08-12T08:14:48Z) - LLM-Based Social Simulations Require a Boundary [3.351170542925928]
大規模言語モデル(LLM)に基づく社会シミュレーションは明確な境界を確立するべきである。
本稿では、アライメント(実世界のパターンにマッチするシミュレーション行動)、一貫性(時間とともに一貫性のあるエージェント動作を維持する)、堅牢性という3つの重要な境界問題について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:14:47Z) - Modeling Earth-Scale Human-Like Societies with One Billion Agents [54.465233996410156]
Light Societyはエージェントベースのシミュレーションフレームワークである。
社会的プロセスはエージェントと環境状態の構造的遷移として形式化される。
10億以上のエージェントによる社会の効率的なシミュレーションを支援する。
論文 参考訳(メタデータ) (2025-06-07T09:14:12Z) - GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [71.04084063541777]
ランク付けのためのカウンターファクトラーニングはIRコミュニティで広く注目を集めている。
モデルは、ユーザの振る舞いの仮定が正しく、確率推定が正確であるときに理論的に非バイアス化される。
それらの有効性は通常シミュレーションベースの実験を通じて実証的に評価されるが、これは広く利用可能な大規模で実際のクリックログが不足しているためである。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。
そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。
我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文 参考訳(メタデータ) (2024-02-13T19:46:39Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。
最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。
発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文 参考訳(メタデータ) (2023-12-23T08:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。