論文の概要: A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance
- arxiv url: http://arxiv.org/abs/2103.06403v1
- Date: Thu, 11 Mar 2021 01:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:53:41.162883
- Title: A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance
- Title(参考訳): UAV障害回避のためのビジョンに基づく深層強化学習アルゴリズム
- Authors: Jeremy Roghair, Kyungtae Ko, Amir Ehsan Niaraki Asli and Ali Jannesari
- Abstract要約: UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
- 参考スコア(独自算出の注目度): 1.2693545159861856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integration of reinforcement learning with unmanned aerial vehicles (UAVs) to
achieve autonomous flight has been an active research area in recent years. An
important part focuses on obstacle detection and avoidance for UAVs navigating
through an environment. Exploration in an unseen environment can be tackled
with Deep Q-Network (DQN). However, value exploration with uniform sampling of
actions may lead to redundant states, where often the environments inherently
bear sparse rewards. To resolve this, we present two techniques for improving
exploration for UAV obstacle avoidance. The first is a convergence-based
approach that uses convergence error to iterate through unexplored actions and
temporal threshold to balance exploration and exploitation. The second is a
guidance-based approach using a Domain Network which uses a Gaussian mixture
distribution to compare previously seen states to a predicted next state in
order to select the next action. Performance and evaluation of these approaches
were implemented in multiple 3-D simulation environments, with variation in
complexity. The proposed approach demonstrates a two-fold improvement in
average rewards compared to state of the art.
- Abstract(参考訳): 無人飛行を実現するために無人航空機(UAV)との強化学習の統合は近年,活発な研究領域となっている。
重要な部分は、環境を航行するUAVの障害物検出と回避に焦点を当てている。
目に見えない環境での探索は、Deep Q-Network (DQN) に対処することができる。
しかし、行動の均一なサンプリングによる価値探索は、しばしば環境が本質的にまばらな報酬を負うような冗長な状態につながる可能性がある。
これを解決するために,UAV障害物回避のための2つの手法を提案する。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、前述した状態と予測された次の状態を比較して次のアクションを選択する、ガウス混合分布を使用するドメインネットワークを用いたガイダンスベースのアプローチである。
これらの手法の性能と評価は、複雑性の変化を伴う複数の3次元シミュレーション環境で実施された。
提案手法は,最先端技術と比較して平均報酬が2倍向上することを示す。
関連論文リスト
- Shrinking POMCP: A Framework for Real-Time UAV Search and Rescue [10.399964979693996]
本稿では,UAVによる周辺地域の捜索救助活動の最適化に包括的アプローチを提案する。
経路計画問題は部分的に観測可能なマルコフ決定過程(POMDP)として定式化される
本稿では,時間制約に対処する新しいShrinking POMCP'アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-20T01:41:29Z) - On-policy Actor-Critic Reinforcement Learning for Multi-UAV Exploration [0.7373617024876724]
無人航空機(UAV)は、精密農業、捜索救助、リモートセンシングなど、様々な分野で人気が高まっている。
本研究は,複数のUAVを用いて2次元の関心領域を探索するために,政治強化学習(RL)とPPO(Pximal Policy Optimization)を活用することで,この問題に対処することを目的とする。
提案手法は、深層畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)を用いて、UAVと既にカバーされている領域を特定することを含む。
論文 参考訳(メタデータ) (2024-09-17T10:36:46Z) - RaCIL: Ray Tracing based Multi-UAV Obstacle Avoidance through Composite Imitation Learning [1.934627691560021]
本研究では,無人航空機(UAV)における障害物回避の課題を,革新的な模倣学習アプローチによって解決する。
本研究は,障害物検出と回避能力向上におけるレイトレーシングの意義を明らかにするものである。
我々のアプローチは、混雑した環境や動的な環境での高度自律型UAV運用の道を開くものである。
論文 参考訳(メタデータ) (2024-06-24T17:43:24Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - UN-AVOIDS: Unsupervised and Nonparametric Approach for Visualizing
Outliers and Invariant Detection Scoring [2.578242050187029]
UN-AVOIDS(UN-AVOIDS)は、人間のプロセス)と外れ値の検出(アルゴリズムプロセス)の両方に対して、教師なしかつ非パラメトリックなアプローチである。
近傍累積密度関数(NCDF)として導入した新しい空間にデータを変換する。
AUCに関しては、UN-AVOIDSはほぼ総合的な勝者である。
論文 参考訳(メタデータ) (2021-11-19T02:31:06Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z) - Autonomous and cooperative design of the monitor positions for a team of
UAVs to maximize the quantity and quality of detected objects [0.5801044612920815]
本稿では、完全に未知の地形内にUAVの群れを配置する問題に取り組む。
YOLOv3と複製対象を識別するシステムを用いて、各UAVの構成に1つのスコアを割り当てた。
予め定義されたスコアを最適化できる新しいナビゲーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:52:57Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。