論文の概要: Synthesis of Hierarchical Controllers Based on Deep Reinforcement
Learning Policies
- arxiv url: http://arxiv.org/abs/2402.13785v1
- Date: Wed, 21 Feb 2024 13:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-22 15:18:32.415396
- Title: Synthesis of Hierarchical Controllers Based on Deep Reinforcement
Learning Policies
- Title(参考訳): 深層強化学習ポリシーに基づく階層型コントローラの合成
- Authors: Florent Delgrange, Guy Avni, Anna Lukina, Christian Schilling, Ann
Now\'e, and Guillermo A. P\'erez
- Abstract要約: マルコフ決定過程(MDP)をモデル化した環境におけるコントローラ設計問題に対する新しいアプローチを提案する。
まず,各部屋の低レベル政策を得るために深層強化学習を適用し,未知の構造を持つ大きな部屋へ拡張する。
次に, 各室でどの低レベルポリシーを実行するかを選択する高レベルプランナを得るために, 反応合成を適用する。
- 参考スコア(独自算出の注目度): 9.194841756561907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach to the problem of controller design for
environments modeled as Markov decision processes (MDPs). Specifically, we
consider a hierarchical MDP a graph with each vertex populated by an MDP called
a "room". We first apply deep reinforcement learning (DRL) to obtain low-level
policies for each room, scaling to large rooms of unknown structure. We then
apply reactive synthesis to obtain a high-level planner that chooses which
low-level policy to execute in each room. The central challenge in synthesizing
the planner is the need for modeling rooms. We address this challenge by
developing a DRL procedure to train concise "latent" policies together with PAC
guarantees on their performance. Unlike previous approaches, ours circumvents a
model distillation step. Our approach combats sparse rewards in DRL and enables
reusability of low-level policies. We demonstrate feasibility in a case study
involving agent navigation amid moving obstacles.
- Abstract(参考訳): 本稿では,マルコフ決定過程 (MDP) をモデル化した環境におけるコントローラ設計問題に対する新しいアプローチを提案する。
具体的には、階層型 MDP を、各頂点が「部屋」と呼ばれる MDP に占めるグラフとみなす。
まず,各室の低レベル政策を得るために深層強化学習(DRL)を適用し,未知の構造の広い部屋へ拡張する。
次に, 各室でどの低レベルポリシーを実行するかを選択する高レベルプランナを得るために, 反応合成を適用する。
プランナーを合成する上での中心的な課題は、モデリングルームの必要性である。
そこで我々は,PACの保証とともに,簡潔な"遅延"ポリシーを訓練するためのDRL手順を開発することで,この問題に対処する。
以前のアプローチとは異なり、我々のシステムはモデル蒸留ステップを回避します。
本手法は,低レベル政策の再利用を可能にするため,DRLのスパース報酬に対処する。
移動障害物中のエージェントナビゲーションを含むケーススタディで実現可能性を示す。
関連論文リスト
- Solving Sokoban using Hierarchical Reinforcement Learning with Landmarks [0.0]
本稿では,パズルゲーム「ソコバン」に適用した新しい階層型強化学習フレームワークを提案する。
提案手法は6段階のポリシー階層を構築し,各上位のポリシーが下位のレベルに対してサブゴールを生成する。
すべてのサブゴールとポリシーは、ドメインの知識なしに、ゼロからエンドツーエンドに学習されます。
論文 参考訳(メタデータ) (2025-04-06T05:30:21Z) - A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Bilevel Generative Learning for Low-Light Vision [64.77933848939327]
本稿では、RAWからRGB領域へのデータ変換のための生成ブロックを導入することで、汎用的な低照度ビジョンソリューションを提案する。
この新しいアプローチは、フィールドにおける最初のデータ生成を明示的に表現することで、多様な視覚問題を結合する。
そこで我々は,新しい二段階生成学習パラダイムを取得するために,低コストと高精度の異なる目標を目標とする2種類の学習戦略を開発した。
論文 参考訳(メタデータ) (2023-08-07T07:59:56Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Hierarchical Reinforcement Learning with Optimal Level Synchronization
based on a Deep Generative Model [4.266866385061998]
HRLの問題のひとつは、それぞれのレベルポリシーを、その経験から最適なデータ収集でトレーニングする方法です。
本稿では,高次生成モデルを用いたオフポリシー補正手法を用いて,最適レベルの同期をサポートする新しいHRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-17T05:02:25Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。