論文の概要: Smooth Trajectory Collision Avoidance through Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.06377v1
- Date: Wed, 12 Oct 2022 16:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 16:07:25.551530
- Title: Smooth Trajectory Collision Avoidance through Deep Reinforcement
Learning
- Title(参考訳): 深部強化学習による平滑な軌道衝突回避
- Authors: Sirui Song, Kirk Saunders, Ye Yue, Jundong Liu
- Abstract要約: 本稿では,DRLに基づくナビゲーションソリューションにおける2つの重要な問題に対処するために,エージェントの状態と報酬関数の設計を提案する。
我々のモデルは、衝突の可能性を著しく低減しつつ、UAVのスムーズな飛行を確保するために、マージンの報酬と滑らかさの制約に依存している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Collision avoidance is a crucial task in vision-guided autonomous navigation.
Solutions based on deep reinforcement learning (DRL) has become increasingly
popular. In this work, we proposed several novel agent state and reward
function designs to tackle two critical issues in DRL-based navigation
solutions: 1) smoothness of the trained flight trajectories; and 2) model
generalization to handle unseen environments.
Formulated under a DRL framework, our model relies on margin reward and
smoothness constraints to ensure UAVs fly smoothly while greatly reducing the
chance of collision. The proposed smoothness reward minimizes a combination of
first-order and second-order derivatives of flight trajectories, which can also
drive the points to be evenly distributed, leading to stable flight speed. To
enhance the agent's capability of handling new unseen environments, two
practical setups are proposed to improve the invariance of both the state and
reward function when deploying in different scenes. Experiments demonstrate the
effectiveness of our overall design and individual components.
- Abstract(参考訳): 衝突回避は視覚誘導自律ナビゲーションにおいて重要なタスクである。
深層強化学習(DRL)に基づくソリューションが普及している。
本研究では,DRLに基づくナビゲーションソリューションにおける2つの重要な問題に対処するために,エージェントの状態と報酬関数の設計を提案する。
1) 訓練飛行軌道の滑らかさ,及び
2)未熟な環境を扱うためのモデル一般化。
DRLの枠組みで定式化したモデルでは、衝突の確率を大幅に低減しつつ、UAVのスムーズな飛行を確保するために、マージンの報酬と滑らかさの制約に依存している。
提案された滑らかさの報奨は、飛行軌跡の1次および2次微分の組み合わせを最小化し、ポイントを均等に分散させることで飛行速度を安定させる。
新たな未知環境を扱うエージェントの能力を高めるために,異なるシーンに配置する際の状態と報酬関数の相違を改善するために,2つの実用的なセットアップを提案する。
実験は、全体的な設計と個々のコンポーネントの有効性を示す。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Two-step dynamic obstacle avoidance [0.0]
本稿では、教師付きおよび強化学習(RL)を組み合わせることにより、動的障害物回避(DOA)タスクを扱うための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動アプローチを導入する。
第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
論文 参考訳(メタデータ) (2023-11-28T14:55:50Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Reinforcement Learning-Based Air Traffic Deconfliction [7.782300855058585]
本研究は,2機の水平分離を自動化することに焦点を当て,障害物回避問題を2次元サロゲート最適化課題として提示する。
強化学習(RL)を用いて、回避ポリシーを最適化し、ダイナミクス、インタラクション、意思決定をモデル化する。
提案システムは,安全要件を満たす高速かつ達成可能な回避軌道を生成する。
論文 参考訳(メタデータ) (2023-01-05T00:37:20Z) - Reward Function Optimization of a Deep Reinforcement Learning Collision
Avoidance System [0.0]
無人航空機システム(UAS)の普及により、航空宇宙規制当局はこれらの航空機と衝突回避システムとの相互運用性を検討するようになった。
現在義務化されているTCASの制限により、連邦航空局は新たなソリューションである空中衝突回避システムX(ACAS X)の開発を委託した。
本研究では,サロゲートを用いてパラメータを調整したDRL衝突回避システムの利点について検討する。
論文 参考訳(メタデータ) (2022-12-01T20:20:41Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using
Deep Reinforcement Learning [0.0]
追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。
本稿では,連続制御タスクにおける最先端性能を示すDRLアルゴリズムであるPPOの可能性について検討する。
ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)の高忠実な標高とAIS追跡データに基づいて、我々は訓練されたエージェントのパフォーマンスを挑戦的でダイナミックな実世界のシナリオで評価した。
論文 参考訳(メタデータ) (2020-06-16T22:05:58Z) - Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments [11.657524999491029]
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
論文 参考訳(メタデータ) (2020-03-23T12:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。