論文の概要: Sub-optimal Policy Aided Multi-Agent Reinforcement Learning for Flocking
Control
- arxiv url: http://arxiv.org/abs/2209.08347v1
- Date: Sat, 17 Sep 2022 15:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:59:36.441478
- Title: Sub-optimal Policy Aided Multi-Agent Reinforcement Learning for Flocking
Control
- Title(参考訳): 群集制御のためのマルチエージェント強化学習支援サブオプティマイズ政策
- Authors: Yunbo Qiu, Yue Jin, Jian Wang, Xudong Zhang
- Abstract要約: 本稿では,SPA-MARL(Sub-optimal policy aided multi-agent reinforcement learning algorithm)を提案する。
人工電位場に基づく従来の制御手法を用いて、準最適ポリシーを生成する。
実験により、SPA-MARLはトレーニングプロセスを高速化し、MARLベースラインと使用済みの準最適ポリシーの両方を上回ります。
- 参考スコア(独自算出の注目度): 6.989964720799445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flocking control is a challenging problem, where multiple agents, such as
drones or vehicles, need to reach a target position while maintaining the flock
and avoiding collisions with obstacles and collisions among agents in the
environment. Multi-agent reinforcement learning has achieved promising
performance in flocking control. However, methods based on traditional
reinforcement learning require a considerable number of interactions between
agents and the environment. This paper proposes a sub-optimal policy aided
multi-agent reinforcement learning algorithm (SPA-MARL) to boost sample
efficiency. SPA-MARL directly leverages a prior policy that can be manually
designed or solved with a non-learning method to aid agents in learning, where
the performance of the policy can be sub-optimal. SPA-MARL recognizes the
difference in performance between the sub-optimal policy and itself, and then
imitates the sub-optimal policy if the sub-optimal policy is better. We
leverage SPA-MARL to solve the flocking control problem. A traditional control
method based on artificial potential fields is used to generate a sub-optimal
policy. Experiments demonstrate that SPA-MARL can speed up the training process
and outperform both the MARL baseline and the used sub-optimal policy.
- Abstract(参考訳): 群れの制御は難しい問題であり、ドローンや車両のような複数のエージェントが群れを維持しながら目標の位置に到達し、環境中のエージェント間の衝突や衝突を避ける必要がある。
マルチエージェント強化学習は、群れ制御において有望な性能を達成した。
しかしながら、伝統的な強化学習に基づく手法は、エージェントと環境の間のかなりの数の相互作用を必要とする。
本稿では,SPA-MARL(Sub-optimal policy aided multi-agent reinforcement learning algorithm)を提案する。
spa-marlは、事前のポリシーを直接活用し、手動で設計したり、非学習方法で解いたりすることで、学習中のエージェントを支援する。
SPA-MARLは、サブ最適ポリシーとそれ自身のパフォーマンスの違いを認識し、サブ最適ポリシーがより良い場合、サブ最適ポリシーを模倣する。
我々はSPA-MARLを利用して、群れ制御の問題を解決する。
人工電位場に基づく従来の制御手法を用いて、準最適ポリシーを生成する。
実験により、SPA-MARLはトレーニングプロセスを高速化し、MARLベースラインと使用済みの準最適ポリシーの両方を上回ります。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation [1.079960007119637]
OPS-DeMoは、動的エラー減衰を利用して相手のポリシーの変更を検出するオンラインアルゴリズムである。
提案手法は,プレデター・プレイ設定のような動的シナリオにおいて,PPO学習モデルよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T17:34:44Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent
Policy Optimization [1.5501208213584152]
本稿では,MARL(Multi-Agent Reinforcement Learning)設定における課題を克服するため,ミラー・ダイスン法の拡張を提案する。
提案したヘテロジニアスミラーDescent Policy Optimization (HAMDPO) アルゴリズムは,マルチエージェント・アドバンスト分解補題を利用する。
我々は,Multi-Agent MuJoCoおよびStarCraftIIタスク上でHAMDPOを評価し,最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-13T10:18:10Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。