論文の概要: Synthesis of Hierarchical Controllers Based on Deep Reinforcement
Learning Policies
- arxiv url: http://arxiv.org/abs/2402.13785v1
- Date: Wed, 21 Feb 2024 13:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:18:32.415396
- Title: Synthesis of Hierarchical Controllers Based on Deep Reinforcement
Learning Policies
- Title(参考訳): 深層強化学習ポリシーに基づく階層型コントローラの合成
- Authors: Florent Delgrange, Guy Avni, Anna Lukina, Christian Schilling, Ann
Now\'e, and Guillermo A. P\'erez
- Abstract要約: マルコフ決定過程(MDP)をモデル化した環境におけるコントローラ設計問題に対する新しいアプローチを提案する。
まず,各部屋の低レベル政策を得るために深層強化学習を適用し,未知の構造を持つ大きな部屋へ拡張する。
次に, 各室でどの低レベルポリシーを実行するかを選択する高レベルプランナを得るために, 反応合成を適用する。
- 参考スコア(独自算出の注目度): 9.194841756561907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach to the problem of controller design for
environments modeled as Markov decision processes (MDPs). Specifically, we
consider a hierarchical MDP a graph with each vertex populated by an MDP called
a "room". We first apply deep reinforcement learning (DRL) to obtain low-level
policies for each room, scaling to large rooms of unknown structure. We then
apply reactive synthesis to obtain a high-level planner that chooses which
low-level policy to execute in each room. The central challenge in synthesizing
the planner is the need for modeling rooms. We address this challenge by
developing a DRL procedure to train concise "latent" policies together with PAC
guarantees on their performance. Unlike previous approaches, ours circumvents a
model distillation step. Our approach combats sparse rewards in DRL and enables
reusability of low-level policies. We demonstrate feasibility in a case study
involving agent navigation amid moving obstacles.
- Abstract(参考訳): 本稿では,マルコフ決定過程 (MDP) をモデル化した環境におけるコントローラ設計問題に対する新しいアプローチを提案する。
具体的には、階層型 MDP を、各頂点が「部屋」と呼ばれる MDP に占めるグラフとみなす。
まず,各室の低レベル政策を得るために深層強化学習(DRL)を適用し,未知の構造の広い部屋へ拡張する。
次に, 各室でどの低レベルポリシーを実行するかを選択する高レベルプランナを得るために, 反応合成を適用する。
プランナーを合成する上での中心的な課題は、モデリングルームの必要性である。
そこで我々は,PACの保証とともに,簡潔な"遅延"ポリシーを訓練するためのDRL手順を開発することで,この問題に対処する。
以前のアプローチとは異なり、我々のシステムはモデル蒸留ステップを回避します。
本手法は,低レベル政策の再利用を可能にするため,DRLのスパース報酬に対処する。
移動障害物中のエージェントナビゲーションを含むケーススタディで実現可能性を示す。
関連論文リスト
- Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Hierarchical Reinforcement Learning with Optimal Level Synchronization
based on a Deep Generative Model [4.266866385061998]
HRLの問題のひとつは、それぞれのレベルポリシーを、その経験から最適なデータ収集でトレーニングする方法です。
本稿では,高次生成モデルを用いたオフポリシー補正手法を用いて,最適レベルの同期をサポートする新しいHRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-17T05:02:25Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。