論文の概要: Solving reward-collecting problems with UAVs: a comparison of online
optimization and Q-learning
- arxiv url: http://arxiv.org/abs/2112.00141v1
- Date: Tue, 30 Nov 2021 22:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 05:07:02.555445
- Title: Solving reward-collecting problems with UAVs: a comparison of online
optimization and Q-learning
- Title(参考訳): UAVによる報酬収集問題の解決:オンライン最適化とQ-ラーニングの比較
- Authors: Yixuan Liu and Chrysafis Vogiatzis and Ruriko Yoshida and Erich Morman
- Abstract要約: 与えられたスタートからゴールまでの短い経路を識別し、すべての報酬を集め、グリッド上でランダムに動く敵を避けるという課題について検討する。
本稿では,Deep Q-Learningモデル,$varepsilon$-greedyタブ状Q-Learningモデル,オンライン最適化フレームワークの3つの方法の比較を行った。
我々の実験は、ランダムな逆数を持つ単純なグリッドワールド環境を用いて設計され、これらの手法がどのように機能するかを示し、性能、精度、計算時間の観点から比較する。
- 参考スコア(独自算出の注目度): 2.4251007104039006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uncrewed autonomous vehicles (UAVs) have made significant contributions to
reconnaissance and surveillance missions in past US military campaigns. As the
prevalence of UAVs increases, there has also been improvements in counter-UAV
technology that makes it difficult for them to successfully obtain valuable
intelligence within an area of interest. Hence, it has become important that
modern UAVs can accomplish their missions while maximizing their chances of
survival. In this work, we specifically study the problem of identifying a
short path from a designated start to a goal, while collecting all rewards and
avoiding adversaries that move randomly on the grid. We also provide a possible
application of the framework in a military setting, that of autonomous casualty
evacuation. We present a comparison of three methods to solve this problem:
namely we implement a Deep Q-Learning model, an $\varepsilon$-greedy tabular
Q-Learning model, and an online optimization framework. Our computational
experiments, designed using simple grid-world environments with random
adversaries showcase how these approaches work and compare them in terms of
performance, accuracy, and computational time.
- Abstract(参考訳): uncrewed autonomous vehicles (uavs)は、過去の米軍作戦における偵察および監視任務に多大な貢献をした。
UAVの普及に伴い、対UAV技術の改良も行われ、興味のある領域で貴重な情報を得るのを困難にしている。
したがって、現代のUAVが自らのミッションを達成し、生存可能性の最大化が重要である。
本研究では,与えられたスタートからゴールまでの短い経路を識別する問題について,すべての報酬を収集し,グリッド上でランダムに移動する敵を避けながら検討する。
また,自発的な死傷者の避難という,軍事的状況における枠組みの応用の可能性についても述べる。
本稿では,この問題を解決するために,Deep Q-Learningモデル,$\varepsilon$-greedyタブ状Q-Learningモデル,オンライン最適化フレームワークの3つの方法を比較する。
ランダムな逆数を持つ単純なグリッドワールド環境を用いて設計した計算実験は、これらの手法がどのように機能するかを示し、性能、精度、計算時間の観点から比較する。
関連論文リスト
- Multi-UAV Multi-RIS QoS-Aware Aerial Communication Systems using DRL and PSO [34.951735976771765]
無人航空機(UAV)は、地上の利用者に無線サービスを提供する学術・産業の研究者の注目を集めている。
UAVの限られたリソースは、そのようなアプリケーションにUAVを採用する上での課題を引き起こす可能性がある。
システムモデルでは,地域をナビゲートするUAVスワムを考慮し,RISをサポートした地上ユーザへの無線通信により,UAVのカバレッジを向上させる。
論文 参考訳(メタデータ) (2024-06-16T17:53:56Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Autonomous Strike UAVs for Counterterrorism Missions: Challenges and
Preliminary Solutions [1.03590082373586]
無人航空機(UAV)は現代の戦争において重要な道具となっている。
この研究の焦点は、自律型UAVによる高度に価値の高い目標に対するストライキミッションの実施である。
論文 参考訳(メタデータ) (2024-03-01T22:52:30Z) - Meta Reinforcement Learning for Strategic IoT Deployments Coverage in
Disaster-Response UAV Swarms [5.57865728456594]
無人航空機(UAV)は、重要な緊急用途に使用される可能性があるとして、学術や産業の研究者の注目を集めている。
これらのアプリケーションには、地上のユーザーに無線サービスを提供し、災害の影響を受けた地域からデータを収集する機能が含まれる。
UAVの限られた資源、エネルギー予算、厳格なミッション完了時間は、これらの用途にUAVを採用する際の課題を提起している。
論文 参考訳(メタデータ) (2024-01-20T05:05:39Z) - Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - Multi-Objective Optimization for UAV Swarm-Assisted IoT with Virtual
Antenna Arrays [55.736718475856726]
無人航空機(UAV)ネットワークはIoT(Internet-of-Things)を支援するための有望な技術である
既存のUAV支援データ収集および普及スキームでは、UAVはIoTとアクセスポイントの間を頻繁に飛行する必要がある。
協調ビームフォーミングをIoTとUAVに同時に導入し、エネルギーと時間効率のデータ収集と普及を実現した。
論文 参考訳(メタデータ) (2023-08-03T02:49:50Z) - Q-Learning based system for path planning with unmanned aerial vehicles
swarms in obstacle environments [38.82157836789187]
Q-Learning を利用した強化学習システムを提案する。
これらのパスの目標は、フィールド探索のようなタスクのための固定された障害のある領域の完全なカバレッジを保証することである。
結果は十分であり、システムはより少ない動きの解を得ることができる。
論文 参考訳(メタデータ) (2023-03-30T18:37:34Z) - A Multi-UAV System for Exploration and Target Finding in Cluttered and
GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。
UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。
その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文 参考訳(メタデータ) (2021-07-19T12:54:04Z) - 3D UAV Trajectory and Data Collection Optimisation via Deep
Reinforcement Learning [75.78929539923749]
無人航空機(UAV)は現在、無線通信におけるネットワーク性能とカバレッジを高めるために配備され始めている。
UAV支援モノのインターネット(IoT)のための最適な資源配分方式を得ることは困難である
本稿では,UAVの最も短い飛行経路に依存しつつ,IoTデバイスから収集したデータ量を最大化しながら,新しいUAV支援IoTシステムを設計する。
論文 参考訳(メタデータ) (2021-06-06T14:08:41Z) - Efficient UAV Trajectory-Planning using Economic Reinforcement Learning [65.91405908268662]
UAV間でタスクを分散するための経済取引に触発された新しい強化学習アルゴリズムであるREPlannerを紹介します。
エージェントが協力し、リソースを競うことができるマルチエージェント経済ゲームとして、パス計画問題を策定します。
UAV協力によるタスク分布の計算を行うため、Swarmサイズの変化に対して非常に耐性が高い。
論文 参考訳(メタデータ) (2021-03-03T20:54:19Z) - Federated Learning for Cellular-connected UAVs: Radio Mapping and Path
Planning [2.4366811507669124]
本稿では,UAVの走行時間を最小化し,確率的接続制約を満たすことを保証する。
UAVは異なるミッションを持ち、異なるエリアを飛行するため、収集されたデータはネットワークの接続に関するローカル情報を運ぶ。
最初のステップでは、UAVは環境の停止確率のグローバルモデルを構築します。
第2ステップでは、第1ステップで得られた大域的モデルと高速探索型ランダムツリー(RRT)を用いて、UAVの経路を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-23T14:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。