論文の概要: Continuous Motion Planning with Temporal Logic Specifications using Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2004.02610v2
- Date: Tue, 29 Sep 2020 19:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:55:13.132587
- Title: Continuous Motion Planning with Temporal Logic Specifications using Deep
Neural Networks
- Title(参考訳): 深部ニューラルネットワークを用いた時間論理仕様を用いた連続運動計画
- Authors: Chuanzheng Wang, Yinan Li, Stephen L. Smith, Jun Liu
- Abstract要約: 動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。
ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。
我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
- 参考スコア(独自算出の注目度): 16.296473750342464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a model-free reinforcement learning method to
synthesize control policies for motion planning problems with continuous states
and actions. The robot is modelled as a labeled discrete-time Markov decision
process (MDP) with continuous state and action spaces. Linear temporal logics
(LTL) are used to specify high-level tasks. We then train deep neural networks
to approximate the value function and policy using an actor-critic
reinforcement learning method. The LTL specification is converted into an
annotated limit-deterministic B\"uchi automaton (LDBA) for continuously shaping
the reward so that dense rewards are available during training. A na\"ive way
of solving a motion planning problem with LTL specifications using
reinforcement learning is to sample a trajectory and then assign a high reward
for training if the trajectory satisfies the entire LTL formula. However, the
sampling complexity needed to find such a trajectory is too high when we have a
complex LTL formula for continuous state and action spaces. As a result, it is
very unlikely that we get enough reward for training if all sample trajectories
start from the initial state in the automata. In this paper, we propose a
method that samples not only an initial state from the state space, but also an
arbitrary state in the automata at the beginning of each training episode. We
test our algorithm in simulation using a car-like robot and find out that our
method can learn policies for different working configurations and LTL
specifications successfully.
- Abstract(参考訳): 本稿では,連続状態と動作を伴う動作計画問題に対する制御ポリシーを合成するモデルフリー強化学習手法を提案する。
ロボットは、連続状態とアクション空間を備えたラベル付き離散時間マルコフ決定プロセス(MDP)としてモデル化される。
線形時間論理(LTL)は高レベルなタスクを指定するために用いられる。
次に,アクター-クリティック強化学習法を用いて,値関数とポリシを近似するためにディープニューラルネットワークを訓練する。
LTL仕様は、トレーニング中に厳密な報酬が利用可能になるよう、報酬を連続的に形作るための注釈付き極限決定性B\"uchiautoon(LDBA)に変換される。
強化学習を用いたLTL仕様による運動計画問題の解決方法として, 軌道をサンプリングし, 軌道がLTL式全体を満たす場合, トレーニングに高い報酬を与える方法がある。
しかし、そのような軌道を見つけるのに必要なサンプリングの複雑さは、連続状態と作用空間に対する複雑な ltl 公式を持つと高すぎる。
その結果、全てのサンプル軌道がオートマトンの初期状態から始まると、トレーニングに対する十分な報酬が得られる可能性は極めて低い。
本稿では,状態空間からの初期状態だけでなく,各訓練エピソードの開始時のオートマトンにおける任意の状態もサンプリングする手法を提案する。
カーライクなロボットを用いてシミュレーションでアルゴリズムをテストし、異なる作業構成とLTL仕様のポリシーをうまく学習できることを確認する。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - LTLDoG: Satisfying Temporally-Extended Symbolic Constraints for Safe Diffusion-based Planning [12.839846486863308]
本研究では,新しい静的かつ時間的に拡張された制約/命令に準拠する長い水平軌道を生成することに焦点を当てる。
本稿では、線形時間論理を用いて指定された命令を与えられた逆プロセスの推論ステップを変更する、データ駆動拡散に基づくフレームワーク、 finiteDoGを提案する。
ロボットナビゲーションと操作の実験では、障害物回避と訪問シーケンスを指定する公式を満たす軌道を生成することができる。
論文 参考訳(メタデータ) (2024-05-07T11:54:22Z) - Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。
この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。
そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-23T12:53:51Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Learning Minimally-Violating Continuous Control for Infeasible Linear
Temporal Logic Specifications [2.496282558123411]
本稿では、線形時間論理(LTL)として表される複雑な高次タスクを満たすための目標駆動ナビゲーションの連続時間制御について検討する。
基礎となる力学系が未知である深層強化学習(DRL)を用いたモデルフリー合成フレームワーク(不透明ボックス)を提案する。
論文 参考訳(メタデータ) (2022-10-03T18:32:20Z) - Distributed Control using Reinforcement Learning with
Temporal-Logic-Based Reward Shaping [0.2320417845168326]
本研究では,異種ロボットの分散制御戦略を部分的に観測可能な環境下で合成するためのフレームワークを提案する。
提案手法では,合成問題をゲームとして定式化し,ポリシーグラフ法を用いて各エージェントのメモリによる制御戦略を求める。
我々はTLTLの量的意味論をゲームの報酬として使用し、さらに有限状態オートマトンを用いて学習プロセスのガイドと高速化を行う。
論文 参考訳(メタデータ) (2022-03-08T16:03:35Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Induction and Exploitation of Subgoal Automata for Reinforcement
Learning [75.55324974788475]
本稿では,Regressed Learning (RL)タスクにおけるサブゴールの学習と活用のためのISAを提案する。
ISAは、タスクのサブゴールによってエッジがラベル付けされたオートマトンであるサブゴールオートマトンを誘導することで強化学習をインターリーブする。
サブゴールオートマトンはまた、タスクの完了を示す状態と、タスクが成功せずに完了したことを示す状態の2つの特別な状態で構成されている。
論文 参考訳(メタデータ) (2020-09-08T16:42:55Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。