論文の概要: Scheduling Drone and Mobile Charger via Hybrid-Action Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.10761v1
- Date: Sat, 16 Mar 2024 01:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:54:53.897438
- Title: Scheduling Drone and Mobile Charger via Hybrid-Action Deep Reinforcement Learning
- Title(参考訳): ハイブリッドアクション深部強化学習によるドローンと移動帯電器のスケジューリング
- Authors: Jizhe Dou, Haotian Zhang, Guodong Sun,
- Abstract要約: ドローンは一定の関心点を観察するために配置され、充電器はドローンのバッテリーを充電するために移動することができる。
我々は、ドローンと移動充電器のルートと充電スケジュールに焦点を合わせ、可能な限り短時間で高観測ユーティリティーを得る。
本稿では、標準ポリシー学習アルゴリズムを用いて遅延連続動作を生成するハイブリッドアクション深層強化学習フレームワークHaDMCを提案する。
- 参考スコア(独自算出の注目度): 7.577251571044739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently there has been a growing interest in industry and academia, regarding the use of wireless chargers to prolong the operational longevity of unmanned aerial vehicles (commonly knowns as drones). In this paper we consider a charger-assisted drone application: a drone is deployed to observe a set points of interest, while a charger can move to recharge the drone's battery. We focus on the route and charging schedule of the drone and the mobile charger, to obtain high observation utility with the shortest possible time, while ensuring the drone remains operational during task execution. Essentially, this proposed drone-charger scheduling problem is a multi-stage decision-making process, in which the drone and the mobile charger act as two agents who cooperate to finish a task. The discrete-continuous hybrid action space of the two agents poses a significant challenge in our problem. To address this issue, we present a hybrid-action deep reinforcement learning framework, called HaDMC, which uses a standard policy learning algorithm to generate latent continuous actions. Motivated by representation learning, we specifically design and train an action decoder. It involves two pipelines to convert the latent continuous actions into original discrete and continuous actions, by which the drone and the charger can directly interact with environment. We embed a mutual learning scheme in model training, emphasizing the collaborative rather than individual actions. We conduct extensive numerical experiments to evaluate HaDMC and compare it with state-of-the-art deep reinforcement learning approaches. The experimental results show the effectiveness and efficiency of our solution.
- Abstract(参考訳): 近年、無人航空機(一般にドローン)の運用寿命を延ばすためのワイヤレス充電器の使用に関して、産業や学界への関心が高まっている。
本稿では,充電器を利用したドローンアプリケーションについて考察する。ドローンは一定の関心点を観測するために配置され,充電器はドローンのバッテリーを充電するために移動することができる。
我々は、ドローンと移動充電器のルートと充電スケジュールに注目し、タスク実行中にドローンが動作し続けることを保証しながら、可能な限り短時間で高観測ユーティリティを得る。
基本的に、提案されたドローン充電器スケジューリング問題は、ドローンと移動充電器がタスクを完了させるために協力する2つのエージェントとして機能する、多段階の意思決定プロセスである。
2つのエージェントの離散-連続的ハイブリッドアクション空間は、我々の問題に重大な課題を生じさせる。
この問題に対処するため、我々は、標準ポリシー学習アルゴリズムを用いて潜時連続行動を生成するハイブリッドアクション深層強化学習フレームワークHaDMCを提案する。
表現学習によって動機づけられた我々は、アクションデコーダを特別に設計し、訓練する。
ドローンと充電器が直接環境と対話できるように、潜伏した連続的なアクションを元の離散的かつ連続的なアクションに変換する2つのパイプラインを含んでいる。
モデルトレーニングに相互学習スキームを組み込み,個別の行動よりも協調性を重視した。
本研究では,HDMCを評価するための大規模な数値実験を行い,最先端の深層強化学習手法と比較する。
実験の結果,提案手法の有効性と有効性を示した。
関連論文リスト
- Energy-Aware Multi-Agent Reinforcement Learning for Collaborative Execution in Mission-Oriented Drone Networks [3.4918110778972458]
ミッション指向ドローンネットワークは、構造検査、災害監視、国境監視などに広く利用されている。
ドローンのバッテリ容量が限られているため、ミッション実行戦略はネットワークの性能とミッション完了に影響を及ぼす。
本研究では,マルチエージェント強化学習(MARL)を活用し,その課題を管理する。
論文 参考訳(メタデータ) (2024-10-29T22:43:26Z) - Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文 参考訳(メタデータ) (2023-08-27T10:32:52Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait
Representation [78.92147339883137]
本研究では,特定の歩行を構成する主要姿勢位相を捕捉する潜在空間を学習することにより,制御器のロバスト性を高めることが重要であることを示す。
本研究では,ドライブ信号マップの特定の特性が,歩幅,歩幅,立位などの歩行パラメータに直接関係していることを示す。
生成モデルを使用することで、障害の検出と緩和が容易になり、汎用的で堅牢な計画フレームワークを提供する。
論文 参考訳(メタデータ) (2022-05-02T19:49:53Z) - Collaborative Target Search with a Visual Drone Swarm: An Adaptive
Curriculum Embedded Multistage Reinforcement Learning Approach [0.0]
適応型カリキュラム組込み多段階学習(ACEMSL)という,データ効率の高い深層強化学習(DRL)手法を提案する。
我々は、協調対象探索タスクを、個別の障害物回避、対象探索、エージェント間協調を含むいくつかのサブタスクに分解し、多段階学習でエージェントを段階的に訓練する。
我々は、訓練されたモデルを実際の視覚ドローン群に展開し、微調整なしでCTS操作を行う。
論文 参考訳(メタデータ) (2022-04-26T09:32:22Z) - Autonomous Aerial Robot for High-Speed Search and Intercept Applications [86.72321289033562]
高速物体把握のための完全自律飛行ロボットが提案されている。
追加のサブタスクとして、我々のシステムは、表面に近い極にある気球を自律的にピアスすることができる。
我々のアプローチは、挑戦的な国際競争で検証され、優れた結果が得られました。
論文 参考訳(メタデータ) (2021-12-10T11:49:51Z) - Drone swarm patrolling with uneven coverage requirements [22.475492500154573]
本稿では,ドローン搭載カメラセンサによる視覚的カバレッジの最適化に焦点を当てる。
我々は、これらのカバレッジ要件を関連マップでモデル化し、Swarmをガイドする深層強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-01T10:58:57Z) - Drones for Medical Delivery Considering Different Demands Classes: A
Markov Decision Process Approach for Managing Health Centers Dispatching
Medical Products [0.0]
本稿では,医療物資を異なる地域へ届けるために,ドローンを用いたハブの配電操作を最適化する問題を考察する。
異なる地理的位置を考慮することで、異なる飛行範囲を必要とする異なる需要のクラスを考察する。
我々は、ドローンハブからの距離に基づいて要求を分類し、マルコフ決定プロセスを用いて問題をモデル化し、計算テストを実行する。
論文 参考訳(メタデータ) (2021-06-08T23:20:31Z) - Dogfight: Detecting Drones from Drones Videos [58.158988162743825]
本稿では,他の飛行ドローンからドローンを検知する問題に対処する。
ソースとターゲットドローンのエロティックな動き、小型、任意の形状、大きな強度、および閉塞は、この問題を非常に困難にします。
これに対処するため,地域提案に基づく手法ではなく,2段階のセグメンテーションに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T17:43:31Z) - Time-Efficient Mars Exploration of Simultaneous Coverage and Charging
with Multiple Drones [14.160624396972707]
本稿では,複数のドローンとローバーの協調による火星探査の時間効率向上手法を提案する。
限られたエネルギー、センサーモデル、通信範囲、安全半径を考慮した総合的な枠組みが開発されている。
TIME-SC2の顕著な性能を示すために大規模なシミュレーションが行われた。
論文 参考訳(メタデータ) (2020-11-16T07:28:37Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。