論文の概要: Robust Multi-Agent Bandits Over Undirected Graphs
- arxiv url: http://arxiv.org/abs/2203.00076v1
- Date: Mon, 28 Feb 2022 20:21:55 GMT
- Title: Robust Multi-Agent Bandits Over Undirected Graphs
- Title(参考訳): 非向グラフ上のロバストマルチエージェントバンディット
- Authors: Daniel Vial, Sanjay Shakkottai, R. Srikant
- Abstract要約: 我々は、正直なエージェントがネットワーク上で協力し、後悔を最小限に抑えるマルチエージェント・マルチアーム・バンディット・セッティングを考える。
我々は,$i$-thエージェントが任意の連結および無向グラフ上で$O(d_textmal(i) + K/n) log(T)/Delta)$を後悔する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 26.26185074977412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a multi-agent multi-armed bandit setting in which $n$ honest
agents collaborate over a network to minimize regret but $m$ malicious agents
can disrupt learning arbitrarily. Assuming the network is the complete graph,
existing algorithms incur $O( (m + K/n) \log (T) / \Delta )$ regret in this
setting, where $K$ is the number of arms and $\Delta$ is the arm gap. For $m
\ll K$, this improves over the single-agent baseline regret of
In this work, we show the situation is murkier beyond the case of a complete
graph. In particular, we prove that if the state-of-the-art algorithm is used
on the undirected line graph, honest agents can suffer (nearly) linear regret
until time is doubly exponential in $K$ and $n$. In light of this negative
result, we propose a new algorithm for which the $i$-th agent has regret $O( (
d_{\text{mal}}(i) + K/n) \log(T)/\Delta)$ on any connected and undirected
graph, where $d_{\text{mal}}(i)$ is the number of $i$'s neighbors who are
malicious. Thus, we generalize existing regret bounds beyond the complete graph
(where $d_{\text{mal}}(i) = m$), and show the effect of malicious agents is
entirely local (in the sense that only the $d_{\text{mal}}(i)$ malicious agents
directly connected to $i$ affect its long-term regret).
- Abstract(参考訳): マルチエージェントのマルチアームバンディット設定では、$n$の正直なエージェントがネットワーク上で協力して後悔を最小限に抑えるが、$m$の悪意のあるエージェントは、任意の学習を妨害することができる。
ネットワークが完全なグラフであると仮定すると、既存のアルゴリズムは$O( (m + K/n) \log (T) / \Delta )$ regret in this set, where $K$ is the number of arms and $\Delta$ is the arm gap。
m \ll K$の場合、これは$O(K\log(T)/\Delta)$の単一エージェントベースラインの後悔よりも改善される。
この負の結果を踏まえて、$i$-th エージェントは任意の連結かつ無向グラフに対して $o((d_{\text{mal}}(i) + k/n) \log(t)/\delta)$ を後悔し、$d_{\text{mal}}(i)$ は悪意のある$i$ の隣人の数である。
したがって、既存の後悔の限度を完全なグラフを超えて一般化し(ここでは$d_{\text{mal}}(i) = m$)、悪意あるエージェントの効果が完全に局所的であることを示す($d_{\text{mal}}(i)$ 悪質なエージェントが$i$に直接接続された場合のみ、その長期的な後悔に影響する)。
