論文の概要: Reinforcement Learning for Signal Temporal Logic using Funnel-Based
Approach
- arxiv url: http://arxiv.org/abs/2212.03181v1
- Date: Wed, 30 Nov 2022 19:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 12:51:21.229242
- Title: Reinforcement Learning for Signal Temporal Logic using Funnel-Based
Approach
- Title(参考訳): ファンネルに基づく信号時間論理の強化学習
- Authors: Naman Saxena, Gorantla Sandeep, Pushpak Jagtap
- Abstract要約: 本研究では、連続状態空間におけるSTL仕様の堅牢な満足度に関する時間依存ポリシーを学習するための、抽出可能な強化学習アルゴリズムを提案する。
我々は、振り子と移動ロボットの例を用いて、いくつかのタスクにおけるアプローチの有用性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Signal Temporal Logic (STL) is a powerful framework for describing the
complex temporal and logical behaviour of the dynamical system. Several works
propose a method to find a controller for the satisfaction of STL specification
using reinforcement learning but fail to address either the issue of robust
satisfaction in continuous state space or ensure the tractability of the
approach. In this paper, leveraging the concept of funnel functions, we propose
a tractable reinforcement learning algorithm to learn a time-dependent policy
for robust satisfaction of STL specification in continuous state space. We
demonstrate the utility of our approach on several tasks using a pendulum and
mobile robot examples.
- Abstract(参考訳): Signal Temporal Logic (STL) は力学系の複雑な時間的・論理的な振る舞いを記述するための強力なフレームワークである。
いくつかの研究は強化学習を用いてstl仕様を満たすための制御器を見つける方法を提案しているが、連続状態空間におけるロバスト満足度の問題やアプローチの扱いやすさの確保には至っていない。
本稿では, ファンネル関数の概念を活かし, 連続状態空間におけるstl仕様の頑健な満足のための時間依存ポリシーを学習するための拡張学習アルゴリズムを提案する。
振り子と移動ロボットの例を用いて,いくつかのタスクにおけるアプローチの有用性を実証する。
関連論文リスト
- DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文 参考訳(メタデータ) (2023-09-10T20:31:25Z) - Diagnostic Spatio-temporal Transformer with Faithful Encoding [54.02712048973161]
本稿では,データ生成プロセスが複合時間(ST)依存性を持つ場合の異常診断の課題について述べる。
我々は、ST依存を時系列分類の副産物として学習する、教師付き依存発見として問題を定式化する。
既存のST変圧器で使用される時間的位置符号化は、高周波数(短時間スケール)の周波数をキャプチャする重大な制限を有することを示す。
また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T05:31:23Z) - STL-Based Synthesis of Feedback Controllers Using Reinforcement Learning [8.680676599607125]
深層強化学習(DRL)は、未知の力学を持つ様々な複雑なシステムに対するフィードバックコントローラ(エージェント)の合成に使用される可能性がある。
RLでは、報酬関数はこれらのエージェントの望ましい振る舞いを特定する上で重要な役割を果たす。
信号時間論理(STL)の量的意味論を用いて,リアルタイムに報酬を生成する体系的な方法を提案する。
我々は,STLに基づく強化学習機構をいくつかの複雑な連続制御ベンチマーク上で評価し,STLのセマンティクスと文献で利用可能なセマンティクスを,制御エージェントの合成における有効性の観点から比較した。
論文 参考訳(メタデータ) (2022-12-02T08:31:46Z) - Deep reinforcement learning under signal temporal logic constraints
using Lagrangian relaxation [0.0]
一般的には,決定に制約を課すことができる。
時間的高次タスクを完了させるために制約のある最適決定問題を考える。
ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-21T00:56:25Z) - Learning from Demonstrations using Signal Temporal Logic [1.2182193687133713]
効果的なロボット制御ポリシーを得るための新しいパラダイムである。
我々はSignal Temporal Logicを使ってデモの質を評価しランク付けする。
提案手法は,最先端の最大因果エントロピー逆強化学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-15T18:28:36Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Tractable Reinforcement Learning of Signal Temporal Logic Objectives [0.0]
信号時相論理 (Signal temporal logic, STL) は、リアルタイムロボットタスクと安全仕様を指定するための表現言語である。
STL仕様を満たすための学習は、報酬と次のアクションを計算するのに十分な状態履歴を必要とすることが多い。
本稿では,新しい拡張状態空間表現において状態履歴をキャプチャするコンパクトな方法を提案する。
論文 参考訳(メタデータ) (2020-01-26T15:23:54Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。