論文の概要: Using Reinforcement Learning to Herd a Robotic Swarm to a Target
Distribution
- arxiv url: http://arxiv.org/abs/2006.15807v2
- Date: Sat, 12 Dec 2020 20:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:13:59.047113
- Title: Using Reinforcement Learning to Herd a Robotic Swarm to a Target
Distribution
- Title(参考訳): 強化学習を用いてロボット群を目標分布に誘導する
- Authors: Zahi M. Kakish, Karthik Elamvazhuthi, Spring Berman
- Abstract要約: 本稿では「リーダー」エージェントの制御ポリシーを設計するための強化学習手法を提案する。
SARSAとQ-Learningの2つの時間差学習アルゴリズムは、リーダー制御ポリシーを生成するために使用される。
- 参考スコア(独自算出の注目度): 3.706222947143855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a reinforcement learning approach to designing a
control policy for a "leader" agent that herds a swarm of "follower" agents,
via repulsive interactions, as quickly as possible to a target probability
distribution over a strongly connected graph. The leader control policy is a
function of the swarm distribution, which evolves over time according to a
mean-field model in the form of an ordinary difference equation. The dependence
of the policy on agent populations at each graph vertex, rather than on
individual agent activity, simplifies the observations required by the leader
and enables the control strategy to scale with the number of agents. Two
Temporal-Difference learning algorithms, SARSA and Q-Learning, are used to
generate the leader control policy based on the follower agent distribution and
the leader's location on the graph. A simulation environment corresponding to a
grid graph with 4 vertices was used to train and validate the control policies
for follower agent populations ranging from 10 to 100. Finally, the control
policies trained on 100 simulated agents were used to successfully redistribute
a physical swarm of 10 small robots to a target distribution among 4 spatial
regions.
- Abstract(参考訳): 本稿では,強く連結されたグラフ上のターゲット確率分布に対して可能な限り早く,反発的相互作用を通じて,"フォロワー"エージェント群を群集化する「リーダー」エージェントの制御ポリシーを設計するための強化学習手法を提案する。
リーダー制御ポリシは、通常の差分方程式の形で平均場モデルに従って時間とともに進化するスワム分布の関数である。
個々のエージェント活動ではなく、各グラフ頂点におけるエージェント集団に対するポリシーの依存は、リーダーが要求する観察を単純化し、エージェントの数に応じて制御戦略をスケール可能にする。
SARSA と Q-Learning という2つの時間差学習アルゴリズムを用いて,そのグラフ上の従者エージェント分布とリーダの位置に基づくリーダ制御ポリシを生成する。
4つの頂点を持つ格子グラフに対応するシミュレーション環境を用いて,10から100の従者エージェント集団に対する制御ポリシーを訓練し,検証した。
最後に,100個の模擬エージェントを用いて訓練した制御ポリシーを用いて,10個の小型ロボット群を4つの空間領域の目標分布に再分配した。
関連論文リスト
- Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion [41.52811286996212]
Make-An-Agentは、行動から政治への生成のための新しいポリシーパラメータジェネレータである。
所望の行動の1つの実演をプロンプトとして、エージェントに対して制御ポリシーを生成する方法を示す。
また,Make-An-Agentによって生成されたポリシーを,ロコモーションタスク上で現実世界のロボットに展開する。
論文 参考訳(メタデータ) (2024-07-15T17:59:57Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Distributed Policy Gradient for Linear Quadratic Networked Control with
Limited Communication Range [23.500806437272487]
局所的な情報のみを用いて正確な勾配を近似できることを示す。
集中型最適制御器と比較して、通信と制御範囲が増加するにつれて性能ギャップは指数関数的に減少する。
論文 参考訳(メタデータ) (2024-03-05T15:38:54Z) - A Policy Iteration Approach for Flock Motion Control [5.419608513284392]
全体的な制御プロセスは、群れの粘着性と局在性を監視しながらエージェントを誘導する。
ここでは、独立したコマンドジェネレータに従うためにエージェント群を誘導するために、オンラインモデルフリーのポリシーイテレーションメカニズムが開発されている。
政策反復機構のシミュレーション結果から,計算労力の少ない高速学習と収束挙動が明らかになった。
論文 参考訳(メタデータ) (2023-03-17T15:04:57Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。
当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。
我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文 参考訳(メタデータ) (2021-03-08T21:48:55Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Distributed Voltage Regulation of Active Distribution System Based on
Enhanced Multi-agent Deep Reinforcement Learning [9.7314654861242]
本稿では,スペクトルクラスタリングと拡張マルチエージェント深部強化学習(MADRL)アルゴリズムに基づくデータ駆動分散電圧制御手法を提案する。
提案手法は,システムパラメータの通信と知識の要求を大幅に低減することができる。
また、不確実性を効果的に処理し、最新のローカル情報に基づいたオンライン協調制御を提供する。
論文 参考訳(メタデータ) (2020-05-31T15:48:27Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。