論文の概要: On the Near-Optimality of Local Policies in Large Cooperative
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.03491v1
- Date: Wed, 7 Sep 2022 23:15:08 GMT
- Title: On the Near-Optimality of Local Policies in Large Cooperative
Multi-Agent Reinforcement Learning
- Title(参考訳): 大規模協調型マルチエージェント強化学習における局所的政策の最適性について
- Authors: Washim Uddin Mondal, Vaneet Aggarwal, Satish V. Ukkusuri
- Abstract要約: 協調的な$N$エージェントネットワークでは、エージェントに対してローカルに実行可能なポリシーを設計できることを示す。
- 参考スコア(独自算出の注目度): 37.63373979256335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that in a cooperative $N$-agent network, one can design locally
executable policies for the agents such that the resulting discounted sum of
average rewards (value) well approximates the optimal value computed over all
(including non-local) policies. Specifically, we prove that, if $|\mathcal{X}|,
|\mathcal{U}|$ denote the size of state, and action spaces of individual
agents, then for sufficiently small discount factor, the approximation error is
given by $\mathcal{O}(e)$ where $e\triangleq
Moreover, in a special case where the reward and state transition functions are
independent of the action distribution of the population, the error improves to
$\mathcal{O}(e)$ where $e\triangleq \frac{1}{\sqrt{N}}\sqrt{|\mathcal{X}|}$.
Finally, we also devise an algorithm to explicitly construct a local policy.
With the help of our approximation results, we further establish that the
constructed local policy is within $\mathcal{O}(\max\{e,\epsilon\})$ distance
of the optimal policy, and the sample complexity to achieve such a local policy
is $\mathcal{O}(\epsilon^{-3})$, for any $\epsilon>0$.
- Abstract(参考訳): 協調的な$N$エージェントネットワークでは、平均報酬(値)の割引和が、すべての(非局所的を含む)ポリシーで計算された最適値をうまく近似するように、エージェントに対してローカルに実行可能なポリシーを設計できることを示す。
具体的には、 ||\mathcal{x}|, |\mathcal{u}|$ が状態の大きさと個々のエージェントの作用空間を表すならば、十分小さな値引き係数に対して、近似誤差は$\mathcal{o}(e)$ where $e\triangleq \frac{1}{\sqrt{n}}\left[\sqrt{|\mathcal{x}|}+\sqrt{|\mathcal{u}|}\right]$ で与えられる。
さらに、報奨関数と状態遷移関数が集団の行動分布から独立な特別な場合、誤差は$\mathcal{o}(e)$に改善され、ここで$e\triangleq \frac{1}{\sqrt{n}}\sqrt{|\mathcal{x}|}$となる。
