論文の概要: Learning to Herd Agents Amongst Obstacles: Training Robust Shepherding
Behaviors using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.09476v1
- Date: Tue, 19 May 2020 14:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:42:46.611629
- Title: Learning to Herd Agents Amongst Obstacles: Training Robust Shepherding
Behaviors using Deep Reinforcement Learning
- Title(参考訳): 障害のあるエージェントを育成する学習 : 深層強化学習を用いたロバストな羊飼い行動の訓練
- Authors: Jixuan Zhi and Jyh-Ming Lien
- Abstract要約: ルールベースのメソッドは、環境が障害で散らばり、複数のシェパードが協調して動作するという、より複雑なシナリオを扱うことができる。
そこで本研究では,エージェントを障害物内に隠蔽する学習手法を提案する。
実験の結果,提案手法は環境モデルと行動モデルの両方から生じる不確実性に敏感であることがわかった。
- 参考スコア(独自算出の注目度): 1.8528929583956726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic shepherding problem considers the control and navigation of a group
of coherent agents (e.g., a flock of bird or a fleet of drones) through the
motion of an external robot, called shepherd. Machine learning based methods
have successfully solved this problem in an empty environment with no
obstacles. Rule-based methods, on the other hand, can handle more complex
scenarios in which environments are cluttered with obstacles and allow multiple
shepherds to work collaboratively. However, these rule-based methods are
fragile due to the difficulty in defining a comprehensive set of rules that can
handle all possible cases. To overcome these limitations, we propose the first
known learning-based method that can herd agents amongst obstacles. By using
deep reinforcement learning techniques combined with the probabilistic
roadmaps, we train a shepherding model using noisy but controlled environmental
and behavioral parameters. Our experimental results show that the proposed
method is robust, namely, it is insensitive to the uncertainties originated
from both environmental and behavioral models. Consequently, the proposed
method has a higher success rate, shorter completion time and path length than
the rule-based behavioral methods have. These advantages are particularly
prominent in more challenging scenarios involving more difficult groups and
strenuous passages.
- Abstract(参考訳): ロボット羊飼い問題(英: Robotic Shepherding problem)は、羊飼いと呼ばれる外部ロボットの動きを通じて、コヒーレントエージェントのグループ(例えば鳥の群れやドローンの群れ)の制御とナビゲーションを考える問題である。
機械学習に基づく手法は、障害物のない空の環境でこの問題をうまく解決した。
一方、ルールベースの手法は、環境が障害物で散らばり、複数のシェパードが協調して動作するという、より複雑なシナリオを処理できる。
しかしながら、これらのルールベースのメソッドは、すべての可能なケースを扱える包括的なルールセットを定義するのが難しいため、脆弱である。
これらの制約を克服するために,エージェントを障害物に閉じ込める学習ベースの手法を提案する。
確率的ロードマップと組み合わさった深層強化学習手法を用いて, 環境パラメータと行動パラメータを制御した羊飼いモデルを訓練する。
実験の結果,提案手法は頑健であり,環境モデルと行動モデルの両方に由来する不確実性に敏感であることがわかった。
その結果,提案手法は,ルールに基づく行動法よりも成功率が高く,完成時間も短く,経路長も長いことがわかった。
これらの利点は、より困難なグループや厳しい通過を含むより困難なシナリオにおいて特に顕著である。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sequential Neural Barriers for Scalable Dynamic Obstacle Avoidance [7.375976854181687]
SNCBF(Sequential Neural Control Barrier Model)の合成学習法を提案する。
複数の動的障害物の空間的相互作用パターンを分解し,各障害物の状態列を通じて予測することができる。
提案手法の利点は,既存の手法と比較して動的衝突回避を改善することである。
論文 参考訳(メタデータ) (2023-07-06T14:24:17Z) - Planning-assisted autonomous swarm shepherding with collision avoidance [4.314641913939324]
本稿では,衝突回避を考慮した自律型シェパーディングフレームワークを提案する。
提案手法は,Swarmシェパーディング問題を単一トラベリングセールスマン問題(TSP)に変換する。
適応的なスイッチングアプローチがフレームワークに統合され、障害物や羊の群れとの衝突を避けるためのリアルタイムパス計画が導かれる。
論文 参考訳(メタデータ) (2023-01-25T00:18:45Z) - Enhanced method for reinforcement learning based dynamic obstacle
avoidance by assessment of collision risk [0.0]
本稿では,障害物回避作業の難易度を制御できる一般的な訓練環境を提案する。
トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2022-12-08T07:46:42Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Efficient Exploration in Constrained Environments with Goal-Oriented
Reference Path [15.679210057474922]
環境マップに基づいて衝突のない経路を予測できる深層畳み込みネットワークを訓練する。
これは強化学習アルゴリズムによって、経路を忠実に追従することを学ぶために使われる。
提案手法は,新しい環境へのサンプル効率と一般化能力を継続的に改善することを示す。
論文 参考訳(メタデータ) (2020-03-03T17:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。