論文の概要: PolicySimEval: A Benchmark for Evaluating Policy Outcomes through Agent-Based Simulation
- arxiv url: http://arxiv.org/abs/2502.07853v1
- Date: Tue, 11 Feb 2025 12:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:59.144727
- Title: PolicySimEval: A Benchmark for Evaluating Policy Outcomes through Agent-Based Simulation
- Title(参考訳): PolicySimEval:エージェントベースシミュレーションによる政策成果評価ベンチマーク
- Authors: Jiaju Kang, Puyu Han, Tian Zhang, Luqi Gong,
- Abstract要約: 政策評価タスクにおけるエージェント・ベース・シミュレーションの能力を評価するための最初のベンチマークであるPolicySimEvalを紹介する。
PolicySimEvalは、社会科学者や政策立案者が直面する現実世界の複雑さを反映することを目的としている。
- 参考スコア(独自算出の注目度): 2.826457831133425
- License:
- Abstract: With the growing adoption of agent-based models in policy evaluation, a pressing question arises: Can such systems effectively simulate and analyze complex social scenarios to inform policy decisions? Addressing this challenge could significantly enhance the policy-making process, offering researchers and practitioners a systematic way to validate, explore, and refine policy outcomes. To advance this goal, we introduce PolicySimEval, the first benchmark designed to evaluate the capability of agent-based simulations in policy assessment tasks. PolicySimEval aims to reflect the real-world complexities faced by social scientists and policymakers. The benchmark is composed of three categories of evaluation tasks: (1) 20 comprehensive scenarios that replicate end-to-end policy modeling challenges, complete with annotated expert solutions; (2) 65 targeted sub-tasks that address specific aspects of agent-based simulation (e.g., agent behavior calibration); and (3) 200 auto-generated tasks to enable large-scale evaluation and method development. Experiments show that current state-of-the-art frameworks struggle to tackle these tasks effectively, with the highest-performing system achieving only 24.5\% coverage rate on comprehensive scenarios, 15.04\% on sub-tasks, and 14.5\% on auto-generated tasks. These results highlight the difficulty of the task and the gap between current capabilities and the requirements for real-world policy evaluation.
- Abstract(参考訳): このようなシステムは、複雑な社会的シナリオを効果的にシミュレートし分析し、政策決定を知らせることができるのか?
この課題に対処することで、政策決定プロセスが大幅に強化され、研究者や実践者が政策成果を検証、調査、洗練するための体系的な方法が提供される。
この目標を達成するために、ポリシー評価タスクにおいてエージェントベースのシミュレーションの能力を評価するために設計された最初のベンチマークであるPolicySimEvalを紹介する。
PolicySimEvalは、社会科学者や政策立案者が直面する現実世界の複雑さを反映することを目的としている。
本ベンチマークは,(1)注釈付きエキスパートソリューションを完備した,エンドツーエンドのポリシーモデリング課題を再現する20の包括的シナリオ,(2)エージェントベースのシミュレーション(エージェント動作の校正など)の特定の側面に対処する65のターゲットサブタスク,(3)大規模評価とメソッド開発を可能にする200の自動生成タスクの3つのカテゴリから構成される。
実験によると、現在の最先端のフレームワークはこれらのタスクに効果的に取り組むのに苦労しており、最高のパフォーマンスのシステムは包括的なシナリオで24.5\%、サブタスクで15.04\%、自動生成タスクで14.5\%しかカバーできない。
これらの結果は,課題の難しさと現在の能力と現実の政策評価の要件とのギャップを浮き彫りにしている。
関連論文リスト
- Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - On the Value of Myopic Behavior in Policy Reuse [67.37788288093299]
未知のシナリオで学習戦略を活用することは、人間の知性の基本である。
本稿では,Selectivemyopic bEhavior Control(SMEC)というフレームワークを提案する。
SMECは、事前ポリシーの共有可能な短期的行動とタスクポリシーの長期的行動を適応的に集約し、協調的な決定につながる。
論文 参考訳(メタデータ) (2023-05-28T03:59:37Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。