論文の概要: Multi-robot Cooperative Pursuit via Potential Field-Enhanced
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.04700v1
- Date: Wed, 9 Mar 2022 13:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 17:04:58.429390
- Title: Multi-robot Cooperative Pursuit via Potential Field-Enhanced
Reinforcement Learning
- Title(参考訳): フィールドエンハンスド強化学習によるマルチロボット協調学習
- Authors: Zheng Zhang, Xiaohan Wang, Qingrui Zhang, and Tianjiang Hu
- Abstract要約: 分散強化学習は協調的追跡政策の学習に使用される。
実世界の移動ロボットに学習した追従ポリシーを移すことにより実験を行う。
- 参考スコア(独自算出の注目度): 14.849112247511542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is of great challenge, though promising, to coordinate collective robots
for hunting an evader in a decentralized manner purely in light of local
observations. In this paper, this challenge is addressed by a novel hybrid
cooperative pursuit algorithm that combines reinforcement learning with the
artificial potential field method. In the proposed algorithm, decentralized
deep reinforcement learning is employed to learn cooperative pursuit policies
that are adaptive to dynamic environments. The artificial potential field
method is integrated into the learning process as predefined rules to improve
the data efficiency and generalization ability. It is shown by numerical
simulations that the proposed hybrid design outperforms the pursuit policies
either learned from vanilla reinforcement learning or designed by the potential
field method. Furthermore, experiments are conducted by transferring the
learned pursuit policies into real-world mobile robots. Experimental results
demonstrate the feasibility and potential of the proposed algorithm in learning
multiple cooperative pursuit strategies.
- Abstract(参考訳): ローカルな観察に照らして、分散した方法で脱走者を狩猟する集団ロボットを協調させることは、有望ではあるが、大きな課題である。
本稿では,強化学習と人工電位場法を組み合わせたハイブリッド協調探索アルゴリズムにより,本課題に対処する。
提案アルゴリズムでは,動的環境に適応する協調的追従政策を学習するために,分散強化学習を用いる。
人工電位場法は、データ効率と一般化能力を改善するために予め定義されたルールとして学習プロセスに統合される。
数値シミュレーションにより,提案するハイブリッド設計は,バニラ強化学習から学習するか,ポテンシャル場法で設計した追跡方針を上回っていることが示された。
さらに,学習した追従ポリシーを実世界の移動ロボットに伝達することで実験を行う。
実験により,複数の協調的追跡戦略の学習における提案アルゴリズムの有効性と可能性を示す。
関連論文リスト
- Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Foundational Policy Acquisition via Multitask Learning for Motor Skill Generation [0.9668407688201356]
本稿では,新しい運動能力を生み出すための基本方針獲得のためのマルチタスク強化学習アルゴリズムを提案する。
人間の感覚運動適応機構に触発されて,新しい運動技術を学ぶのによく用いられるエンコーダ・デコーダネットワークを訓練することを目指す。
論文 参考訳(メタデータ) (2023-08-31T05:26:14Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Human-in-the-Loop Methods for Data-Driven and Reinforcement Learning
Systems [0.8223798883838329]
本研究では,人間同士の相互作用を強化学習ループに組み込む方法について検討する。
その結果,人間同士の相互作用に基づいて学習した報奨信号は,強化学習アルゴリズムの学習速度を加速させることがわかった。
論文 参考訳(メタデータ) (2020-08-30T17:28:18Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。