論文の概要: A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance
- arxiv url: http://arxiv.org/abs/2103.06403v1
- Date: Thu, 11 Mar 2021 01:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:53:41.162883
- Title: A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance
- Title(参考訳): UAV障害回避のためのビジョンに基づく深層強化学習アルゴリズム
- Authors: Jeremy Roghair, Kyungtae Ko, Amir Ehsan Niaraki Asli and Ali Jannesari
- Abstract要約: UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
- 参考スコア(独自算出の注目度): 1.2693545159861856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integration of reinforcement learning with unmanned aerial vehicles (UAVs) to
achieve autonomous flight has been an active research area in recent years. An
important part focuses on obstacle detection and avoidance for UAVs navigating
through an environment. Exploration in an unseen environment can be tackled
with Deep Q-Network (DQN). However, value exploration with uniform sampling of
actions may lead to redundant states, where often the environments inherently
bear sparse rewards. To resolve this, we present two techniques for improving
exploration for UAV obstacle avoidance. The first is a convergence-based
approach that uses convergence error to iterate through unexplored actions and
temporal threshold to balance exploration and exploitation. The second is a
guidance-based approach using a Domain Network which uses a Gaussian mixture
distribution to compare previously seen states to a predicted next state in
order to select the next action. Performance and evaluation of these approaches
were implemented in multiple 3-D simulation environments, with variation in
complexity. The proposed approach demonstrates a two-fold improvement in
average rewards compared to state of the art.
- Abstract(参考訳): 無人飛行を実現するために無人航空機(UAV)との強化学習の統合は近年,活発な研究領域となっている。
重要な部分は、環境を航行するUAVの障害物検出と回避に焦点を当てている。
目に見えない環境での探索は、Deep Q-Network (DQN) に対処することができる。
しかし、行動の均一なサンプリングによる価値探索は、しばしば環境が本質的にまばらな報酬を負うような冗長な状態につながる可能性がある。
これを解決するために,UAV障害物回避のための2つの手法を提案する。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、前述した状態と予測された次の状態を比較して次のアクションを選択する、ガウス混合分布を使用するドメインネットワークを用いたガイダンスベースのアプローチである。
これらの手法の性能と評価は、複雑性の変化を伴う複数の3次元シミュレーション環境で実施された。
提案手法は,最先端技術と比較して平均報酬が2倍向上することを示す。
関連論文リスト
- Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - UN-AVOIDS: Unsupervised and Nonparametric Approach for Visualizing
Outliers and Invariant Detection Scoring [2.578242050187029]
UN-AVOIDS(UN-AVOIDS)は、人間のプロセス)と外れ値の検出(アルゴリズムプロセス)の両方に対して、教師なしかつ非パラメトリックなアプローチである。
近傍累積密度関数(NCDF)として導入した新しい空間にデータを変換する。
AUCに関しては、UN-AVOIDSはほぼ総合的な勝者である。
論文 参考訳(メタデータ) (2021-11-19T02:31:06Z) - ADER:Adapting between Exploration and Robustness for Actor-Critic
Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。
本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。
いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-09-08T05:48:39Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z) - Autonomous and cooperative design of the monitor positions for a team of
UAVs to maximize the quantity and quality of detected objects [0.5801044612920815]
本稿では、完全に未知の地形内にUAVの群れを配置する問題に取り組む。
YOLOv3と複製対象を識別するシステムを用いて、各UAVの構成に1つのスコアを割り当てた。
予め定義されたスコアを最適化できる新しいナビゲーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:52:57Z) - Reinforcement Learning for UAV Autonomous Navigation, Mapping and Target
Detection [36.79380276028116]
本研究では,無人航空機(UAV)に低高度レーダーを装備し,未知の環境下での飛行における共同検出・マッピング・ナビゲーション問題について検討する。
目的は、マッピング精度を最大化する目的で軌道を最適化することであり、目標検出の観点からは、測定が不十分な領域を避けることである。
論文 参考訳(メタデータ) (2020-05-05T20:39:18Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。