論文の概要: Reinforcement Learning for UAV control with Policy and Reward Shaping
- arxiv url: http://arxiv.org/abs/2212.03828v1
- Date: Tue, 6 Dec 2022 14:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:29:25.321744
- Title: Reinforcement Learning for UAV control with Policy and Reward Shaping
- Title(参考訳): 政策整形によるUAV制御のための強化学習
- Authors: Cristian Mill\'an-Arias, Ruben Contreras, Francisco Cruz and Bruno
Fernandes
- Abstract要約: 本研究では,RLエージェントが報酬形成と政策形成を同時に行うことで,ドローンを制御できるように指導する。
その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
- 参考スコア(独自算出の注目度): 0.7127008801193563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, unmanned aerial vehicle (UAV) related technology has
expanded knowledge in the area, bringing to light new problems and challenges
that require solutions. Furthermore, because the technology allows processes
usually carried out by people to be automated, it is in great demand in
industrial sectors. The automation of these vehicles has been addressed in the
literature, applying different machine learning strategies. Reinforcement
learning (RL) is an automation framework that is frequently used to train
autonomous agents. RL is a machine learning paradigm wherein an agent interacts
with an environment to solve a given task. However, learning autonomously can
be time consuming, computationally expensive, and may not be practical in
highly-complex scenarios. Interactive reinforcement learning allows an external
trainer to provide advice to an agent while it is learning a task. In this
study, we set out to teach an RL agent to control a drone using reward-shaping
and policy-shaping techniques simultaneously. Two simulated scenarios were
proposed for the training; one without obstacles and one with obstacles. We
also studied the influence of each technique. The results show that an agent
trained simultaneously with both techniques obtains a lower reward than an
agent trained using only a policy-based approach. Nevertheless, the agent
achieves lower execution times and less dispersion during training.
- Abstract(参考訳): 近年、無人航空機(UAV)関連の技術がこの地域の知識を拡大し、ソリューションを必要とする新たな問題や課題が表面化している。
さらに、この技術は、通常、人が行うプロセスの自動化を可能にするため、産業分野では非常に需要がある。
これらの車両の自動化は、さまざまな機械学習戦略を適用して、文献で論じられている。
強化学習(rl)は、自律エージェントのトレーニングに頻繁に使用される自動化フレームワークである。
RLは、エージェントが与えられたタスクを解決するために環境と対話する機械学習パラダイムである。
しかし、自律的な学習は時間がかかり、計算コストがかかり、複雑なシナリオでは実用的ではない。
インタラクティブ強化学習は、外部トレーナーがタスクを学習している間にエージェントにアドバイスを提供することができる。
本研究では,報酬形成技術と政策形成技術を用いて,ドローンを同時に制御するRLエージェントを指導することを試みた。
訓練には2つのシミュレートシナリオが提案され、1つは障害物なし、1つは障害物付きであった。
また,各手法の影響についても検討した。
その結果,両手法を同時に訓練したエージェントは,政策ベースアプローチのみを用いて訓練したエージェントよりも報酬が低いことがわかった。
それでも、エージェントは、訓練中の実行時間が短く、分散も少ない。
関連論文リスト
- Stepping Out of the Shadows: Reinforcement Learning in Shadow Mode [8.017543518311196]
強化学習は、多くのサイバー物理システムにとってまだ競争力がない。
我々は、従来の制御器の補助により、いわゆるシャドウモードで補強剤を訓練する。
シャドーモードでは、エージェントは、タスクを学ぶためのアクションサンプルと好ましい状態へのガイダンスを提供するために、コントローラに依存する。
論文 参考訳(メタデータ) (2024-10-30T19:52:52Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Self-Inspection Method of Unmanned Aerial Vehicles in Power Plants Using
Deep Q-Network Reinforcement Learning [0.0]
本研究は,UAV自律ナビゲーションとDQN強化学習を取り入れた発電所検査システムを提案する。
訓練されたモデルは、UAVが困難な環境で単独で移動できるようにすることで、検査戦略が実際に適用される可能性が高い。
論文 参考訳(メタデータ) (2023-03-16T00:58:50Z) - Renaissance Robot: Optimal Transport Policy Fusion for Learning Diverse
Skills [28.39150937658635]
最適輸送理論を用いた政策融合のためのポストホック手法を提案する。
これにより、新しいタスクを学習するためのニューラルネットワークポリシの初期化が改善される。
以上の結果から,専門知識を「ルネッサンスエージェント」に統合し,新たなスキルの学習を迅速に行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-07-03T08:15:41Z) - Learning to Guide Multiple Heterogeneous Actors from a Single Human
Demonstration via Automatic Curriculum Learning in StarCraft II [0.5911087507716211]
本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練することを目的とする。
この結果から,自動カリキュラム学習によって訓練されたエージェントは,最先端の深層強化学習ベースラインより優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-11T21:53:11Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z) - Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。
ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。
本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文 参考訳(メタデータ) (2020-03-08T13:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。