論文の概要: ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations
- arxiv url: http://arxiv.org/abs/2106.05492v1
- Date: Thu, 10 Jun 2021 04:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 20:22:12.603667
- Title: ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations
- Title(参考訳): ERMAS:マルチエージェントシミュレーションにおけるリワード関数-レアルギャップのロバスト化
- Authors: Eric Zhao, Alexander R. Trott, Caiming Xiong, Stephan Zheng
- Abstract要約: Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
- 参考スコア(独自算出の注目度): 110.72725220033983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent simulations provide a scalable environment for learning policies
that interact with rational agents. However, such policies may fail to
generalize to the real-world where agents may differ from simulated
counterparts due to unmodeled irrationality and misspecified reward functions.
We introduce Epsilon-Robust Multi-Agent Simulation (ERMAS), a robust
optimization framework for learning AI policies that are robust to such
multiagent sim-to-real gaps. While existing notions of multi-agent robustness
concern perturbations in the actions of agents, we address a novel robustness
objective concerning perturbations in the reward functions of agents. ERMAS
provides this robustness by anticipating suboptimal behaviors from other
agents, formalized as the worst-case epsilon-equilibrium. We show empirically
that ERMAS yields robust policies for repeated bimatrix games and optimal
taxation problems in economic simulations. In particular, in the two-level RL
problem posed by the AI Economist (Zheng et al., 2020) ERMAS learns tax
policies that are robust to changes in agent risk aversion, improving social
welfare by up to 15% in complex spatiotemporal simulations.
- Abstract(参考訳): マルチエージェントシミュレーションは、合理的エージェントと相互作用する学習ポリシーのためのスケーラブルな環境を提供する。
しかし、そのようなポリシーは、エージェントが非モデル化された不合理性と不特定報酬関数のためにシミュレーションされたものと異なる実世界への一般化に失敗する可能性がある。
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、AIポリシーを学習するための堅牢な最適化フレームワークである。
エージェントの行動におけるマルチエージェントの頑健性に関する既存の概念は、エージェントの報酬関数における摂動に関する新しい頑健性目的に対処する。
ERMASは、最悪の場合のエプシロン平衡として形式化された他のエージェントからの最適行動を予測することによって、この堅牢性を提供する。
経済シミュレーションにおいて,ERMASは繰り返しビマトリクスゲームや最適課税問題に対して堅牢な政策を採っていることを実証的に示す。
特に、AIエコノミスト(Zheng et al., 2020)が提起する2段階のRL問題において、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時空間シミュレーションにおいて最大15%の社会福祉を改善する。
関連論文リスト
- GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - On the limits of agency in agent-based models [13.130587222524305]
エージェントベースモデリングは複雑なシステムに対する強力な洞察を提供するが、その実用性は計算の制約によって制限されている。
大規模言語モデル(LLM)の最近の進歩は、適応エージェントによるABMを強化する可能性があるが、大規模なシミュレーションへの統合は依然として困難である。
大規模シミュレーションにおいて,行動複雑性と計算効率のバランスをとる手法であるLSMアーチタイプを提案する。
論文 参考訳(メタデータ) (2024-09-14T04:17:24Z) - Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour
with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。
マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。
MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:21:45Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - INTAGS: Interactive Agent-Guided Simulation [4.04638613278729]
マルチエージェントシステム(MAS)を含む多くのアプリケーションでは、実稼働に先立って、実験的な(Exp)自律エージェントを高忠実度シミュレータでテストすることが必須である。
本稿では,ExpエージェントとBGエージェントのライブインタラクションによって評価される実システムと合成マルチエージェントシステムとを区別する指標を提案する。
InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-04T19:56:18Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。