論文の概要: From Script to Stage: Automating Experimental Design for Social Simulations with LLMs
- arxiv url: http://arxiv.org/abs/2512.08935v1
- Date: Wed, 22 Oct 2025 07:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.403279
- Title: From Script to Stage: Automating Experimental Design for Social Simulations with LLMs
- Title(参考訳): スクリプトからステージへ: LLMを用いた社会シミュレーションのための実験設計の自動化
- Authors: Yuwei Guo, Zihan Zhao, Deyu Zhou, Xiaowei Liu, Ming Zhang,
- Abstract要約: 本稿では,スクリプト生成に基づく自動マルチエージェント実験設計フレームワークを提案する。
この枠組みは決定劇場の概念にインスパイアされている。
政策立案と研究のための新しい意思決定支援ツールを提供する。
- 参考スコア(独自算出の注目度): 29.718149737330506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of large language models (LLMs) has opened new avenues for social science research. Multi-agent simulations powered by LLMs are increasingly becoming a vital approach for exploring complex social phenomena and testing theoretical hypotheses. However, traditional computational experiments often rely heavily on interdisciplinary expertise, involve complex operations, and present high barriers to entry. While LLM-driven agents show great potential for automating experimental design, their reliability and scientific rigor remain insufficient for widespread adoption. To address these challenges, this paper proposes an automated multi-agent experiment design framework based on script generation, inspired by the concept of the Decision Theater. The experimental design process is divided into three stages: (1) Script Generation - a Screenwriter Agent drafts candidate experimental scripts; (2) Script Finalization - a Director Agent evaluates and selects the final script; (3) Actor Generation - an Actor Factory creates actor agents capable of performing on the experimental "stage" according to the finalized script. Extensive experiment conducted across multiple social science experimental scenarios demonstrate that the generated actor agents can perform according to the designed scripts and reproduce outcomes consistent with real-world situations. This framework not only lowers the barriers to experimental design in social science but also provides a novel decision-support tool for policy-making and research. The project's source code is available at: https://anonymous.4open.science/r/FSTS-DE1E
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、社会科学研究の新しい道を開いた。
LLMを用いたマルチエージェントシミュレーションは、複雑な社会現象を探索し、理論仮説をテストするための重要なアプローチになりつつある。
しかし、伝統的な計算実験は、しばしば学際的な専門知識に大きく依存し、複雑な操作を伴い、参入の障壁が高い。
LLMを駆動するエージェントは、実験設計を自動化する大きな可能性を示しているが、その信頼性と科学的厳密さは、広く採用するには不十分である。
これらの課題に対処するために,本研究では,決定劇場の概念に触発されたスクリプト生成に基づく自動マルチエージェント実験設計フレームワークを提案する。
1)スクリプト生成 - 脚本家エージェントが候補となる実験スクリプトをドラフトする (2) スクリプトファイナライゼーション - ディレクターエージェントが最終スクリプトを評価し、選択する (3) アクター生成 - アクターファクトリが最終スクリプトに従って実験的な"ステージ"で実行可能なアクターを作成する。
複数の社会科学実験シナリオにまたがる広範囲な実験により、生成されたアクターエージェントは、設計したスクリプトに従って実行し、現実の状況と整合した結果を再現できることを示した。
この枠組みは、社会科学における実験設計の障壁を低くするだけでなく、政策作成と研究のための新しい意思決定支援ツールも提供する。
プロジェクトのソースコードは、https://anonymous.4open.science/r/FSTS-DE1Eで公開されている。
関連論文リスト
- ExpVid: A Benchmark for Experiment Video Understanding & Reasoning [65.17173232816818]
科学実験ビデオ上でMLLMを体系的に評価する最初のベンチマークであるExpVidを紹介する。
ExpVid 上で 19 個のMLLM を評価し, 粗粒度認識に優れる一方で, 詳細さの曖昧化, 時間経過による状態変化の追跡, 実験手順と科学的成果のリンクに苦慮していることがわかった。
この結果から,特に高次推論において,プロプライエタリモデルとオープンソースモデルとの顕著なパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-10-13T16:45:28Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents [10.86017322488788]
大規模言語モデルを用いた自律型機械学習研究(MLR-Copilot)を提案する。
大規模言語モデル(LLM)エージェントを用いた研究アイデアの自動生成と実装を通じて、機械学習研究の生産性を向上させるように設計されている。
我々は,5つの機械学習研究課題に関するフレームワークを評価し,研究の進展とイノベーションを促進するためのフレームワークの可能性を示す実験結果を示した。
論文 参考訳(メタデータ) (2024-08-26T05:55:48Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - SIERRA: A Modular Framework for Research Automation [5.220940151628734]
本稿では,研究の加速と成果向上のための新しいフレームワークであるSIERRAを紹介する。
SIERRAは、実験用の独立変数を素早く指定し、実験的な入力を生成し、実験を自動的に実行し、結果を処理してグラフやビデオなどの成果物を生成する。
個々の研究者のニーズに対して、簡単にカスタマイズと自動化の拡張を可能にする、深くモジュール化されたアプローチを採用している。
論文 参考訳(メタデータ) (2022-03-03T23:45:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。