論文の概要: Compositional Reinforcement Learning from Logical Specifications
- arxiv url: http://arxiv.org/abs/2106.13906v1
- Date: Fri, 25 Jun 2021 22:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 14:01:26.489552
- Title: Compositional Reinforcement Learning from Logical Specifications
- Title(参考訳): 論理仕様からの合成強化学習
- Authors: Kishor Jothimurugan, Suguman Bansal, Osbert Bastani and Rajeev Alur
- Abstract要約: 最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
- 参考スコア(独自算出の注目度): 21.193231846438895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning control policies for complex tasks given by
logical specifications. Recent approaches automatically generate a reward
function from a given specification and use a suitable reinforcement learning
algorithm to learn a policy that maximizes the expected reward. These
approaches, however, scale poorly to complex tasks that require high-level
planning. In this work, we develop a compositional learning approach, called
DiRL, that interleaves high-level planning and reinforcement learning. First,
DiRL encodes the specification as an abstract graph; intuitively, vertices and
edges of the graph correspond to regions of the state space and simpler
sub-tasks, respectively. Our approach then incorporates reinforcement learning
to learn neural network policies for each edge (sub-task) within a
Dijkstra-style planning algorithm to compute a high-level plan in the graph. An
evaluation of the proposed approach on a set of challenging control benchmarks
with continuous state and action spaces demonstrates that it outperforms
state-of-the-art baselines.
- Abstract(参考訳): 論理仕様による複雑なタスクに対する学習制御ポリシーの問題点について検討する。
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いて、期待される報酬を最大化するポリシーを学ぶ。
しかし、これらのアプローチは、高レベルの計画を必要とする複雑なタスクに不十分にスケールする。
本研究では,高レベルの計画と強化学習をインターリーブするDiRLという構成学習手法を開発する。
まず、dirlは仕様を抽象グラフとしてエンコードする。直感的には、グラフの頂点と辺はそれぞれ状態空間の領域と単純なサブタスクに対応する。
このアプローチでは、強化学習を取り入れて、dijkstraスタイルの計画アルゴリズムで各エッジ(サブタスク)のニューラルネットワークポリシを学習し、グラフ内の高レベルプランを計算する。
連続状態とアクション空間を持つ一連の挑戦的制御ベンチマークに対する提案手法の評価は、最先端のベースラインよりも優れていることを示す。
関連論文リスト
- Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Learning High-level Semantic-Relational Concepts for SLAM [10.528810470934781]
低レベル因子グラフから推定できる高レベル意味関連概念を学習するためのアルゴリズムを提案する。
提案手法をシミュレーションと実データの両方で検証し, 2つのベースラインアプローチによる性能向上を実証した。
論文 参考訳(メタデータ) (2023-09-30T14:54:31Z) - Feudal Graph Reinforcement Learning [18.069747511100132]
グラフに基づく表現とメッセージパッシングモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである
本稿では,階層的RLとピラミッド型メッセージパッシングアーキテクチャを頼りに,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。
特に、FGRLは階層化されたグラフ構造を通して、階層の上部から上位のコマンドが伝播するポリシーの階層を定義している。
論文 参考訳(メタデータ) (2023-04-11T09:51:13Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Goal Agnostic Planning using Maximum Likelihood Paths in Hypergraph
World Models [1.370633147306388]
本稿では,ハイパーグラフに基づく機械学習アルゴリズム,データ構造駆動型メンテナンス手法,およびDijkstraのアルゴリズムの確率的応用に基づく計画アルゴリズムを提案する。
このアルゴリズムが問題空間内の最適解を決定すること、数学的に有界な学習性能を証明し、時間を通してシステム状態の進行を解析する数学的モデルを提供する。
論文 参考訳(メタデータ) (2021-10-18T16:22:33Z) - Abstract Value Iteration for Hierarchical Reinforcement Learning [23.08652058034536]
本研究では,連続状態と行動空間による制御のための階層型強化学習フレームワークを提案する。
重要な課題は、ADPがマルコフではなく、ADPで計画するための2つのアルゴリズムを提案することである。
我々の手法は、いくつかの挑戦的なベンチマークにおいて、最先端の階層的強化学習アルゴリズムより優れています。
論文 参考訳(メタデータ) (2020-10-29T14:41:42Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z) - Graph Ordering: Towards the Optimal by Learning [69.72656588714155]
グラフ表現学習は、ノード分類、予測、コミュニティ検出など、多くのグラフベースのアプリケーションで顕著な成功を収めている。
しかし,グラフ圧縮やエッジ分割などのグラフアプリケーションでは,グラフ表現学習タスクに還元することは極めて困難である。
本稿では,このようなアプリケーションの背後にあるグラフ順序付け問題に対して,新しい学習手法を用いて対処することを提案する。
論文 参考訳(メタデータ) (2020-01-18T09:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。