論文の概要: Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments
- arxiv url: http://arxiv.org/abs/2003.10249v1
- Date: Mon, 23 Mar 2020 12:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:33:34.974612
- Title: Using Deep Reinforcement Learning Methods for Autonomous Vessels in 2D
Environments
- Title(参考訳): 2次元環境における自律容器の深部強化学習手法
- Authors: Mohammad Etemad, Nader Zare, Mahtab Sarvmaili, Amilcar Soares, Bruno
Brandoli Machado, Stan Matwin
- Abstract要約: 本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,Q-Learningを深く使用して,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
- 参考スコア(独自算出の注目度): 11.657524999491029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Surface Vehicles technology (USVs) is an exciting topic that
essentially deploys an algorithm to safely and efficiently performs a mission.
Although reinforcement learning is a well-known approach to modeling such a
task, instability and divergence may occur when combining off-policy and
function approximation. In this work, we used deep reinforcement learning
combining Q-learning with a neural representation to avoid instability. Our
methodology uses deep q-learning and combines it with a rolling wave planning
approach on agile methodology. Our method contains two critical parts in order
to perform missions in an unknown environment. The first is a path planner that
is responsible for generating a potential effective path to a destination
without considering the details of the root. The latter is a decision-making
module that is responsible for short-term decisions on avoiding obstacles
during the near future steps of USV exploitation within the context of the
value function. Simulations were performed using two algorithms: a basic
vanilla vessel navigator (VVN) as a baseline and an improved one for the vessel
navigator with a planner and local view (VNPLV). Experimental results show that
the proposed method enhanced the performance of VVN by 55.31 on average for
long-distance missions. Our model successfully demonstrated obstacle avoidance
by means of deep reinforcement learning using planning adaptive paths in
unknown environments.
- Abstract(参考訳): Unmanned Surface Vehicles Technology(USV)は、基本的にミッションを安全に効率的に実行するアルゴリズムをデプロイするエキサイティングなトピックである。
強化学習はそのようなタスクをモデル化するためのよく知られたアプローチであるが、オフポリシーと関数近似を組み合わせると不安定と発散が生じることがある。
本研究では,Q-Learningとニューラル表現を組み合わせた深層強化学習を用いて不安定性を回避する。
当社の方法論では,深いq-learningを使って,アジャイル方法論のローリングウェーブプランニングアプローチと組み合わせています。
本手法は,未知の環境でミッションを行うために2つの重要な部分を含む。
1つ目はルートプランナーで、ルートの詳細を考慮せずに目的地への潜在的効果的な経路を生成する。
後者は意思決定モジュールであり、バリュー関数のコンテキスト内でのUSV利用の近い将来のステップにおいて、障害を回避するための短期的な決定を行う。
基礎となるバニラ容器ナビゲータ (vvn) と, プランナーと局所視 (vnplv) を備えた船舶ナビゲータ (vnplv) に対する改良版 (vvn) の2つのアルゴリズムを用いてシミュレーションを行った。
実験の結果,VVNの長距離ミッションの平均性能は55.31倍に向上した。
本モデルでは,未知環境における適応経路計画を用いた深層強化学習により障害物回避効果を実証した。
関連論文リスト
- Deep Reinforcement Learning for Autonomous Vehicle Intersection
Navigation [0.24578723416255746]
強化学習アルゴリズムは、これらの課題に対処するための有望なアプローチとして登場した。
そこで本研究では,低コスト単一エージェントアプローチを用いて,T断面積を効率よく安全にナビゲートする問題に対処する。
提案手法により,AVはT断面積を効果的にナビゲートし,走行遅延,衝突最小化,総コストの面で従来の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:54:02Z) - Joint Path planning and Power Allocation of a Cellular-Connected UAV
using Apprenticeship Learning via Deep Inverse Reinforcement Learning [7.760962597460447]
本稿では,郊外環境におけるセルラー接続型無人航空機(UAV)の干渉対応共同経路計画と電力配分機構について検討する。
UAVは、そのアップリンクスループットを最大化し、近隣のBSに接続された地上ユーザ機器(UE)への干渉のレベルを最小化することを目的としている。
Q-learning と深層強化学習 (DRL) を併用した逆強化学習 (IRL) による見習い学習手法
論文 参考訳(メタデータ) (2023-06-15T20:50:05Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。
障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。
報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文 参考訳(メタデータ) (2023-02-17T20:08:59Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Efficient Exploration in Constrained Environments with Goal-Oriented
Reference Path [15.679210057474922]
環境マップに基づいて衝突のない経路を予測できる深層畳み込みネットワークを訓練する。
これは強化学習アルゴリズムによって、経路を忠実に追従することを学ぶために使われる。
提案手法は,新しい環境へのサンプル効率と一般化能力を継続的に改善することを示す。
論文 参考訳(メタデータ) (2020-03-03T17:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。