Fugu-MT 論文翻訳(概要): Using Reinforcement Learning to Herd a Robotic Swarm to a Target Distribution

論文の概要: Using Reinforcement Learning to Herd a Robotic Swarm to a Target Distribution

arxiv url: http://arxiv.org/abs/2006.15807v2
Date: Sat, 12 Dec 2020 20:52:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 14:13:59.047113
Title: Using Reinforcement Learning to Herd a Robotic Swarm to a Target Distribution
Title（参考訳）: 強化学習を用いてロボット群を目標分布に誘導する
Authors: Zahi M. Kakish, Karthik Elamvazhuthi, Spring Berman
Abstract要約: 本稿では「リーダー」エージェントの制御ポリシーを設計するための強化学習手法を提案する。 SARSAとQ-Learningの2つの時間差学習アルゴリズムは、リーダー制御ポリシーを生成するために使用される。
参考スコア（独自算出の注目度）: 3.706222947143855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a reinforcement learning approach to designing a control policy for a "leader" agent that herds a swarm of "follower" agents, via repulsive interactions, as quickly as possible to a target probability distribution over a strongly connected graph. The leader control policy is a function of the swarm distribution, which evolves over time according to a mean-field model in the form of an ordinary difference equation. The dependence of the policy on agent populations at each graph vertex, rather than on individual agent activity, simplifies the observations required by the leader and enables the control strategy to scale with the number of agents. Two Temporal-Difference learning algorithms, SARSA and Q-Learning, are used to generate the leader control policy based on the follower agent distribution and the leader's location on the graph. A simulation environment corresponding to a grid graph with 4 vertices was used to train and validate the control policies for follower agent populations ranging from 10 to 100. Finally, the control policies trained on 100 simulated agents were used to successfully redistribute a physical swarm of 10 small robots to a target distribution among 4 spatial regions.
Abstract（参考訳）: 本稿では,強く連結されたグラフ上のターゲット確率分布に対して可能な限り早く,反発的相互作用を通じて,"フォロワー"エージェント群を群集化する「リーダー」エージェントの制御ポリシーを設計するための強化学習手法を提案する。リーダー制御ポリシは、通常の差分方程式の形で平均場モデルに従って時間とともに進化するスワム分布の関数である。個々のエージェント活動ではなく、各グラフ頂点におけるエージェント集団に対するポリシーの依存は、リーダーが要求する観察を単純化し、エージェントの数に応じて制御戦略をスケール可能にする。 SARSA と Q-Learning という2つの時間差学習アルゴリズムを用いて,そのグラフ上の従者エージェント分布とリーダの位置に基づくリーダ制御ポリシを生成する。 4つの頂点を持つ格子グラフに対応するシミュレーション環境を用いて,10から100の従者エージェント集団に対する制御ポリシーを訓練し,検証した。最後に,100個の模擬エージェントを用いて訓練した制御ポリシーを用いて,10個の小型ロボット群を4つの空間領域の目標分布に再分配した。

関連論文リスト

Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion [41.52811286996212]
Make-An-Agentは、行動から政治への生成のための新しいポリシーパラメータジェネレータである。所望の行動の1つの実演をプロンプトとして、エージェントに対して制御ポリシーを生成する方法を示す。また,Make-An-Agentによって生成されたポリシーを,ロコモーションタスク上で現実世界のロボットに展開する。
論文参考訳（メタデータ） (2024-07-15T17:59:57Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Distributed Policy Gradient for Linear Quadratic Networked Control with Limited Communication Range [23.500806437272487]
局所的な情報のみを用いて正確な勾配を近似できることを示す。集中型最適制御器と比較して、通信と制御範囲が増加するにつれて性能ギャップは指数関数的に減少する。
論文参考訳（メタデータ） (2024-03-05T15:38:54Z)
Combat Urban Congestion via Collaboration: Heterogeneous GNN-based MARL for Coordinated Platooning and Traffic Signal Control [14.302023260372563]
本稿では,異種グラフ多エージェント強化学習と交通理論に基づく課題に挑戦する革新的な手法を提案する。我々は、交通流を最適化するために、小隊と信号制御を独自の観測、行動、報酬関数セットで強化学習エージェントとして設計する。提案手法をSUMOシミュレーションにより評価し,他の適応信号制御法と比較して,走行時間と燃料消費の両面で収束した結果が得られた。
論文参考訳（メタデータ） (2023-10-17T02:46:04Z)
A Policy Iteration Approach for Flock Motion Control [5.419608513284392]
全体的な制御プロセスは、群れの粘着性と局在性を監視しながらエージェントを誘導する。ここでは、独立したコマンドジェネレータに従うためにエージェント群を誘導するために、オンラインモデルフリーのポリシーイテレーションメカニズムが開発されている。政策反復機構のシミュレーション結果から,計算労力の少ない高速学習と収束挙動が明らかになった。
論文参考訳（メタデータ） (2023-03-17T15:04:57Z)
Distributed-Training-and-Execution Multi-Agent Reinforcement Learning for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文参考訳（メタデータ） (2022-12-15T17:01:56Z)
Explaining Reinforcement Learning Policies through Counterfactual Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文参考訳（メタデータ） (2022-01-29T00:52:37Z)
Learning Connectivity for Data Distribution in Robot Teams [96.39864514115136]
グラフニューラルネットワーク(GNN)を用いたアドホックネットワークにおけるデータ分散のためのタスク非依存,分散化,低レイテンシ手法を提案する。当社のアプローチは、グローバル状態情報に基づいたマルチエージェントアルゴリズムを各ロボットで利用可能にすることで機能させます。我々は,情報の平均年齢を報酬関数として強化学習を通じて分散gnn通信政策を訓練し,タスク固有の報酬関数と比較してトレーニング安定性が向上することを示す。
論文参考訳（メタデータ） (2021-03-08T21:48:55Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Distributed Voltage Regulation of Active Distribution System Based on Enhanced Multi-agent Deep Reinforcement Learning [9.7314654861242]
本稿では,スペクトルクラスタリングと拡張マルチエージェント深部強化学習(MADRL)アルゴリズムに基づくデータ駆動分散電圧制御手法を提案する。提案手法は,システムパラメータの通信と知識の要求を大幅に低減することができる。また、不確実性を効果的に処理し、最新のローカル情報に基づいたオンライン協調制御を提供する。
論文参考訳（メタデータ） (2020-05-31T15:48:27Z)
Model-based Reinforcement Learning for Decentralized Multiagent Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文参考訳（メタデータ） (2020-03-15T19:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。