論文の概要: Benchmarking LLMs for Community Governance Simulation with Life-history Narratives
- arxiv url: http://arxiv.org/abs/2605.23783v1
- Date: Fri, 22 May 2026 15:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.419951
- Title: Benchmarking LLMs for Community Governance Simulation with Life-history Narratives
- Title(参考訳): ライフヒストリーナラティブを用いたコミュニティガバナンスシミュレーションのためのLLMのベンチマーク
- Authors: Xu Chen, Yuanzi Li, Lei Wang, Nan Lu, Yang Wang, Anding Wang, Lei Shi, Xiaoxing Fu, Ji-Rong Wen,
- Abstract要約: 大規模言語モデル(LLM)は、人間の態度や振る舞いを低コストでシミュレートするためにスケーラブルである。
本稿では,データセット,ベンチマーク,アルゴリズム,システムを対象とした総合的な研究フレームワークを提案する。
システムはカリキュラム-LoRAをクローズドループポリシー評価パイプラインに統合する。
- 参考スコア(独自算出の注目度): 46.86050402684712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective community governance hinges on understanding what specific residents think and need. Recent work has used large language models (LLMs) to simulate human respondents, offering a scalable, reproducible way to study human attitudes and behaviors at low cost. However, these studies typically prompt the model with just a few demographic variables (age, gender, income), simulating only general role types. This is insufficient for community governance, where decisions depend on the views of specific residents. We bridge this gap with an integrated research framework covering dataset, benchmark, algorithm, and system. The dataset comprises approximately 1.2 million characters of first-person narrative collected through two-hour semi-structured interviews with each of 92 residents in an urban community, organized around nine community-governance domains. The benchmark probes 18 mainstream LLMs across four prompting strategies and shows that adding rich life-history profiles meaningfully raises fidelity above the no-profile baseline, but this gain comes with more input tokens per call from the longer prompts they require. The algorithm, curriculum-LoRA, is a parameter-efficient personalization framework that, by closing this fidelity-cost gap, matches the strongest baseline's fidelity at roughly 10x lower per-call cost and Pareto-dominates every configuration tested. The system integrates curriculum-LoRA into a closed-loop policy-evaluation pipeline. Together, these results bring individual-level LLM-based resident simulation within reach of resource-constrained local administrations, enabling community-governance decisions to be systematically pre-evaluated in silico before real-world deployment.
- Abstract(参考訳): 効果的なコミュニティガバナンスは、特定の住民が何を考え、必要とするかを理解することに集中します。
最近の研究は、人間の反応をシミュレートするために大きな言語モデル(LLM)を使用しており、低コストで人間の態度や行動を研究するスケーラブルで再現可能な方法を提供している。
しかしながら、これらの研究は典型的には少数の人口統計学的変数(年齢、性別、収入)でモデルを刺激し、一般的な役割タイプのみをシミュレートする。
これは、決定が特定の住民の見解に依存するコミュニティガバナンスには不十分である。
このギャップを、データセット、ベンチマーク、アルゴリズム、システムをカバーする統合研究フレームワークで埋める。
このデータセットは、都市部住民92人との2時間の半構造化インタビューを通じて収集された1対1の物語の約120万文字からなる。
このベンチマークは、4つのプロンプト戦略にまたがる18のメインストリームのLSMを調査し、リッチなライフヒストリープロファイルを追加することで、不明なベースライン以上の忠実度が向上することを示した。
このアルゴリズムはパラメータ効率の良いパーソナライズフレームワークであり、このフィデリティコストのギャップを閉じることで、最強のベースラインのフィデリティを約10倍のコストで一致させ、Pareto-dosはテストされたすべての構成を支配している。
このシステムはカリキュラム-LoRAをクローズドループポリシー評価パイプラインに統合する。
これらの結果と合わせて、資源制限された地方行政の範囲内において、個人レベルのLCMベースの居住シミュレーションが実現し、実際の展開前に、コミュニティのガバナンス決定をシリコで体系的に事前評価することが可能になる。
関連論文リスト
- LiveCultureBench: a Multi-Agent, Multi-Cultural Benchmark for Large Language Models in Dynamic Social Simulations [63.478832978278014]
大規模言語モデル(LLM)は、自律的なエージェントとしてますますデプロイされているが、評価は主に文化的適切性や評価者の信頼性よりもタスクの成功に焦点を当てている。
シミュレーション町において, LLMをエージェントとして組み込んだマルチカルチャー動的ベンチマークであるLiveCultureBenchを紹介する。
論文 参考訳(メタデータ) (2026-03-02T15:04:16Z) - Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data [54.145424717168794]
大きな言語モデル(LLM)は、目覚ましい人間のような能力を示しているが、特定の個人を複製する能力は未発見のままである。
本稿では,10年以上にわたるプライベートメッセージ履歴のボランティア配信アーカイブを用いて,LSMに基づく個人シミュレーションのケーススタディを提案する。
本研究は,ボランティアの知人が,最も有望な多候補プール内の応答を正確に識別できるかどうかを評価するための「個別チューリングテスト」を提案する。
論文 参考訳(メタデータ) (2026-03-01T21:46:27Z) - Population-Aligned Persona Generation for LLM-based Social Simulation [58.84363795421489]
本稿では,社会シミュレーションのための高品質な集団対応ペルソナ集合を合成するための体系的枠組みを提案する。
我々のアプローチは、長期のソーシャルメディアデータから物語的ペルソナを生成するために、大きな言語モデルを活用することから始まる。
特定のシミュレーションコンテキストのニーズに対処するために,対象のサブポピュレーションに対してグローバルに整合したペルソナを適応させるタスク固有モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-12T10:43:47Z) - Large Language Models as Virtual Survey Respondents: Evaluating Sociodemographic Response Generation [18.225151370273093]
本稿では,Large Language Models (LLMs) を用いた仮想調査回答者のシミュレーションを行う。
部分属性シミュレーション(PAS)と完全属性シミュレーション(FAS)の2つの新しいシミュレーション設定を導入する。
LLM-S3 (Large Language Model-based Sociodemography Simulation Survey) は4つの社会学領域にまたがる11の現実世界の公開データセットにまたがる総合ベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-08T04:59:00Z) - MF-LLM: Simulating Population Decision Dynamics via a Mean-Field Large Language Model Framework [53.82097200295448]
MF-LLM(Mean-Field LLM)は,まず平均場理論を社会シミュレーションに取り入れる。
MF-LLMは反復過程を通じて個人と人口間の双方向相互作用をモデル化する。
IB-Tuneは、Information Bottleneckの原理にインスパイアされた、新しい微調整手法である。
論文 参考訳(メタデータ) (2025-04-30T12:41:51Z) - LLM Generated Persona is a Promise with a Catch [18.45442859688198]
ペルソナをベースとしたシミュレーションは、人口レベルのフィードバックに依存した変革の規律を約束する。
現実的なペルソナデータを収集する従来の方法は課題に直面します。
プライバシーの制約により、違法に高価で物議を醸している。
論文 参考訳(メタデータ) (2025-03-18T03:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。