論文の概要: Tractable Reinforcement Learning of Signal Temporal Logic Objectives
- arxiv url: http://arxiv.org/abs/2001.09467v2
- Date: Mon, 17 Feb 2020 15:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:09:52.990091
- Title: Tractable Reinforcement Learning of Signal Temporal Logic Objectives
- Title(参考訳): 信号時相論理対象のトラクタブル強化学習
- Authors: Harish Venkataraman, Derya Aksaray, Peter Seiler
- Abstract要約: 信号時相論理 (Signal temporal logic, STL) は、リアルタイムロボットタスクと安全仕様を指定するための表現言語である。
STL仕様を満たすための学習は、報酬と次のアクションを計算するのに十分な状態履歴を必要とすることが多い。
本稿では,新しい拡張状態空間表現において状態履歴をキャプチャするコンパクトな方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Signal temporal logic (STL) is an expressive language to specify time-bound
real-world robotic tasks and safety specifications. Recently, there has been an
interest in learning optimal policies to satisfy STL specifications via
reinforcement learning (RL). Learning to satisfy STL specifications often needs
a sufficient length of state history to compute reward and the next action. The
need for history results in exponential state-space growth for the learning
problem. Thus the learning problem becomes computationally intractable for most
real-world applications. In this paper, we propose a compact means to capture
state history in a new augmented state-space representation. An approximation
to the objective (maximizing probability of satisfaction) is proposed and
solved for in the new augmented state-space. We show the performance bound of
the approximate solution and compare it with the solution of an existing
technique via simulations.
- Abstract(参考訳): 信号時相論理 (Signal temporal logic, STL) は、リアルタイムロボットタスクと安全仕様を指定するための表現言語である。
近年,強化学習(RL)を通じて,STL仕様を満たすための最適ポリシーの学習に関心がある。
STL仕様を満たすための学習は、報酬と次のアクションを計算するのに十分な状態履歴を必要とすることが多い。
歴史の必要性は、学習問題に対する指数的状態空間成長をもたらす。
したがって、学習問題は現実世界のほとんどのアプリケーションで計算的に難解になる。
本稿では,新しい拡張状態空間表現における状態履歴をキャプチャするコンパクトな手法を提案する。
新たな拡張状態空間における目的(満足度最大化確率)の近似を提案し,解決する。
近似解の性能境界を示し,シミュレーションによる既存手法の解と比較する。
関連論文リスト
- Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - Funnel-based Reward Shaping for Signal Temporal Logic Tasks in
Reinforcement Learning [0.0]
本稿では,STL(Signal Temporal Logic)仕様を適用した制御器を学習するために,抽出可能な強化学習アルゴリズムを提案する。
異なる環境を用いた複数のSTLタスクに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-30T19:38:21Z) - Temporal Feature Alignment in Contrastive Self-Supervised Learning for
Human Activity Recognition [2.2082422928825136]
自己教師付き学習は通常、ラベルのないデータから深い特徴表現を学習するために使用される。
本稿では,時間空間に動的時間ワープアルゴリズムを組み込んで,時間次元で特徴を整列させる手法を提案する。
提案されたアプローチは、最近のSSLベースラインと比較して、ロバストな特徴表現を学習する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2022-10-07T07:51:01Z) - Learning Signal Temporal Logic through Neural Network for Interpretable
Classification [13.829082181692872]
本稿では時系列行動の分類のための説明可能なニューラルネットワーク・シンボリック・フレームワークを提案する。
提案手法の計算効率, コンパクト性, 解釈可能性について, シナリオの駆動と海軍の監視事例研究を通じて実証する。
論文 参考訳(メタデータ) (2022-10-04T21:11:54Z) - Approximate information state for approximate planning and reinforcement
learning in partially observed systems [0.7646713951724009]
歴史の関数(AIS)が情報状態の性質をほぼ満足すると、対応する近似動的プログラムが存在することを示す。
文献における状態,観察,行動空間のいくつかの近似がAISの例であることを示す。
AISの健全な特徴は、データから学習できることである。
論文 参考訳(メタデータ) (2020-10-17T18:30:30Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Continuous Motion Planning with Temporal Logic Specifications using Deep
Neural Networks [16.296473750342464]
動作計画問題に対する制御ポリシを合成するモデルフリー強化学習法を提案する。
ロボットは、連続状態と行動空間を持つ離散マルコフ時間決定プロセス(MDP)としてモデル化される。
我々は,アクタクリティカル強化学習法を用いて,価値関数とポリシーを近似するために,ディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-02T17:58:03Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。