論文の概要: Multi Agent Path Finding using Evolutionary Game Theory
- arxiv url: http://arxiv.org/abs/2212.02010v1
- Date: Mon, 5 Dec 2022 03:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:45:18.483306
- Title: Multi Agent Path Finding using Evolutionary Game Theory
- Title(参考訳): 進化ゲーム理論を用いたマルチエージェントパス探索
- Authors: Sheryl Paul, Jyotirmoy V. Deshmukh
- Abstract要約: 従来知られていなかった環境をナビゲートする一組の均質・自律的なエージェントに対する経路探索の問題点を考察する。
私たちの解決策は、進化ゲーム理論、つまり、うまく機能するポリシーを複製し、そうでないポリシーを減少させる考え方に基づいている。
我々は、我々が学習する政策が進化的に安定しており、それゆえに他の政策による侵略に迫っていることを実証的に証明する。
- 参考スコア(独自算出の注目度): 0.22843885788439797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the problem of path finding for a set of
homogeneous and autonomous agents navigating a previously unknown stochastic
environment. In our problem setting, each agent attempts to maximize a given
utility function while respecting safety properties. Our solution is based on
ideas from evolutionary game theory, namely replicating policies that perform
well and diminishing ones that do not. We do a comprehensive comparison with
related multiagent planning methods, and show that our technique beats state of
the art RL algorithms in minimizing path length by nearly 30% in large spaces.
We show that our algorithm is computationally faster than deep RL methods by at
least an order of magnitude. We also show that it scales better with an
increase in the number of agents as compared to other methods, path planning
methods in particular. Lastly, we empirically prove that the policies that we
learn are evolutionarily stable and thus impervious to invasion by any other
policy.
- Abstract(参考訳): 本稿では,未知の確率環境を探索する一様かつ自律的なエージェント群に対する経路探索の問題点について考察する。
問題設定では、各エージェントは、安全性を尊重しながら、与えられたユーティリティ機能を最大化しようとする。
我々の解決策は進化的ゲーム理論、すなわち、うまく機能するポリシーを複製し、そうでないものを減らすという考え方に基づいている。
我々は,関連するマルチエージェント計画手法を総合的に比較し,提案手法が経路長を最大化する技術であるRLアルゴリズムの精度を30%近く向上させることを示す。
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
また,他の手法,特に経路計画手法と比較して,エージェント数の増加に伴ってスケール性が向上することを示した。
最後に、我々は、我々が学習する政策が進化的に安定しており、他の政策による侵略には耐え難いことを実証的に証明する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。