論文の概要: Learn Once Plan Arbitrarily (LOPA): Attention-Enhanced Deep
Reinforcement Learning Method for Global Path Planning
- arxiv url: http://arxiv.org/abs/2401.04145v1
- Date: Mon, 8 Jan 2024 02:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:46:54.594689
- Title: Learn Once Plan Arbitrarily (LOPA): Attention-Enhanced Deep
Reinforcement Learning Method for Global Path Planning
- Title(参考訳): 任意計画学習(LOPA):グローバルパス計画のための注意力強化深層強化学習法
- Authors: Guoming Huang, Mingxin Hou, Xiaofang Yuan, Shuqiao Huang, Yaonan Wang
- Abstract要約: 本稿では,LOPA(Learn Once Plan Arbitrally)と呼ばれる注意強調DRL手法を提案する。
LOPAは、観察の重要情報に対して改良された注意力を達成するために、新しい注意強化機構を使用する。
LOPAは多目的グローバルパス計画実験によって検証される。
- 参考スコア(独自算出の注目度): 17.634451130915618
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep reinforcement learning (DRL) methods have recently shown promise in path
planning tasks. However, when dealing with global planning tasks, these methods
face serious challenges such as poor convergence and generalization. To this
end, we propose an attention-enhanced DRL method called LOPA (Learn Once Plan
Arbitrarily) in this paper. Firstly, we analyze the reasons of these problems
from the perspective of DRL's observation, revealing that the traditional
design causes DRL to be interfered by irrelevant map information. Secondly, we
develop the LOPA which utilizes a novel attention-enhanced mechanism to attain
an improved attention capability towards the key information of the
observation. Such a mechanism is realized by two steps: (1) an attention model
is built to transform the DRL's observation into two dynamic views: local and
global, significantly guiding the LOPA to focus on the key information on the
given maps; (2) a dual-channel network is constructed to process these two
views and integrate them to attain an improved reasoning capability. The LOPA
is validated via multi-objective global path planning experiments. The result
suggests the LOPA has improved convergence and generalization performance as
well as great path planning efficiency.
- Abstract(参考訳): deep reinforcement learning(drl)メソッドは最近、パス計画タスクにpromiseが示されている。
しかしながら、グローバル計画タスクを扱う場合、これらの手法は収束不良や一般化といった深刻な課題に直面する。
そこで本稿では,LOPA(Learn Once Plan Arbitrally)と呼ばれる注目度向上型DRL手法を提案する。
まず,これらの問題の原因をDRLの観察の観点から分析し,従来の設計がDRLを無関係な地図情報によって阻害することを明らかにする。
第2に、新しい注意力強化機構を利用して、観測の重要情報に対する注意力向上を実現するLOPAを開発する。
このようなメカニズムは,(1)DRLの観察をローカルとグローバルの2つのダイナミックなビューに変換するために構築されたアテンションモデル,(2)これらの2つのビューを処理し,改善された推論能力を実現するために,LOPAが所定のマップのキー情報にフォーカスするように誘導する機構,の2つのステップによって実現される。
LOPAは多目的グローバルパス計画実験によって検証される。
その結果,LOPAはコンバージェンスと一般化性能を向上し,経路計画の効率化が図られた。
関連論文リスト
- Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games [6.532258098619471]
部分的に観察可能なマルチエージェント追従ゲーム(PEG)における回避目標の動作計画タスクに焦点をあてる。
これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、様々な応用に関係している。
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Meta-operators for Enabling Parallel Planning Using Deep Reinforcement Learning [0.8287206589886881]
複数の計画演算子を同時に適用した結果,メタ演算子の概念を導入する。
RL アクション空間にメタ演算子を含めることで、並列計画のような新しい計画視点を RL を用いて解決できることが示される。
論文 参考訳(メタデータ) (2024-03-13T19:00:36Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Densely Nested Top-Down Flows for Salient Object Detection [137.74130900326833]
本稿では,物体検出におけるトップダウンモデリングの役割を再考する。
密度の高いトップダウンフロー(DNTDF)ベースのフレームワークを設計する。
DNTDFのすべての段階において、高いレベルの特徴はプログレッシブ圧縮ショートカットパス(PCSP)を介して読み込まれる。
論文 参考訳(メタデータ) (2021-02-18T03:14:02Z) - World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文 参考訳(メタデータ) (2020-11-25T02:49:21Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。