論文の概要: Signal Temporal Logic Neural Predictive Control
- arxiv url: http://arxiv.org/abs/2309.05131v1
- Date: Sun, 10 Sep 2023 20:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 14:28:14.980311
- Title: Signal Temporal Logic Neural Predictive Control
- Title(参考訳): 信号時間論理ニューラル予測制御
- Authors: Yue Meng and Chuchu Fan
- Abstract要約: 本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
- 参考スコア(独自算出の注目度): 15.540490027770621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring safety and meeting temporal specifications are critical challenges
for long-term robotic tasks. Signal temporal logic (STL) has been widely used
to systematically and rigorously specify these requirements. However,
traditional methods of finding the control policy under those STL requirements
are computationally complex and not scalable to high-dimensional or systems
with complex nonlinear dynamics. Reinforcement learning (RL) methods can learn
the policy to satisfy the STL specifications via hand-crafted or STL-inspired
rewards, but might encounter unexpected behaviors due to ambiguity and sparsity
in the reward. In this paper, we propose a method to directly learn a neural
network controller to satisfy the requirements specified in STL. Our controller
learns to roll out trajectories to maximize the STL robustness score in
training. In testing, similar to Model Predictive Control (MPC), the learned
controller predicts a trajectory within a planning horizon to ensure the
satisfaction of the STL requirement in deployment. A backup policy is designed
to ensure safety when our controller fails. Our approach can adapt to various
initial conditions and environmental parameters. We conduct experiments on six
tasks, where our method with the backup policy outperforms the classical
methods (MPC, STL-solver), model-free and model-based RL methods in STL
satisfaction rate, especially on tasks with complex STL specifications while
being 10X-100X faster than the classical methods.
- Abstract(参考訳): 安全性の確保と時間的仕様の達成は、長期的なロボットタスクにとって重要な課題である。
信号時間論理(STL)は、これらの要件を体系的かつ厳格に特定するために広く用いられている。
しかしながら、これらのSTL要求の下で制御ポリシーを見つける従来の方法は計算的に複雑であり、高次元や複雑な非線形力学を持つシステムには拡張性がない。
強化学習(rl)法は、手作りまたはstlにインスパイアされた報酬を通じて、stl仕様を満たすポリシーを学習することができるが、あいまいさと報酬のスパース性のために予期せぬ行動に遭遇する可能性がある。
本稿では,STLで規定される要件を満たすために,ニューラルネットワークコントローラを直接学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学ぶ。
モデル予測制御(MPC)と同様、テストでは、学習したコントローラが計画地平線内の軌道を予測し、デプロイメントにおけるSTL要求の満足度を保証する。
バックアップポリシは、コントローラが故障した場合の安全性を保証するように設計されています。
我々のアプローチは様々な初期条件と環境パラメータに適応できる。
提案手法は従来の手法(MPC, STL-solver), モデルフリー, モデルベースRL法をSTL満足度で上回り, 特にSTL仕様の複雑なタスクでは従来の手法よりも10X-100倍高速である。
関連論文リスト
- Regret-Free Reinforcement Learning for LTL Specifications [6.342676126028222]
強化学習は、未知のダイナミクスを持つシステムの最適制御ポリシーを学習するための有望な方法である。
現在のRLベースの手法は保証のみを提供しており、学習フェーズにおける過渡的なパフォーマンスについての洞察を与えていない。
マルコフ決定プロセス上の仕様の一般的なクラスに対処するコントローラを学習するための,最初の後悔のないオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-18T20:01:45Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Learning Robust and Correct Controllers from Signal Temporal Logic
Specifications Using BarrierNet [5.809331819510702]
我々は,STL定量的セマンティクスを利用して,ロバスト満足度の概念を定義した。
本研究では,STLのフラグメント内の式を満足させる訓練可能な高次制御バリア関数(HOCBF)を構築する。
我々は、他のニューラルネットワークパラメータとともにHOCBFをトレーニングし、コントローラの堅牢性をさらに向上させる。
論文 参考訳(メタデータ) (2023-04-12T21:12:15Z) - Thompson Sampling Achieves $\tilde O(\sqrt{T})$ Regret in Linear
Quadratic Control [85.22735611954694]
我々はトンプソンサンプリング(TS)を用いた安定化可能な線形四元系レギュレータ(LQR)の適応制御問題について検討する。
我々は,LQRの適応制御のための効率的なTSアルゴリズムTSACを提案し,多次元システムであっても,$tilde O(sqrtT)$ regretを実現する。
論文 参考訳(メタデータ) (2022-06-17T02:47:53Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Learning Optimal Strategies for Temporal Tasks in Stochastic Games [23.012106429532633]
本稿では,モデルフリー強化学習(RL)アプローチを導入し,与えられた仕様からコントローラを導出する。
我々は,最悪の環境行動に対する仕様を満たす確率を最大化する最適制御戦略を学習する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - Model-based Reinforcement Learning from Signal Temporal Logic
Specifications [0.17205106391379021]
本稿では,報酬/コスト関数の代替として,STL(Signal Temporal Logic)と呼ばれる形式仕様言語を用いて,望まれるハイレベルロボット動作を表現することを提案する。
提案アルゴリズムは、ピック・アンド・プレース・ロボットアームなどのロボットシステムのシミュレーションと、自律走行車に対する適応的なクルーズ制御を実証的に評価する。
論文 参考訳(メタデータ) (2020-11-10T07:31:47Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。