論文の概要: Temporal Logic Specification-Conditioned Decision Transformer for
Offline Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.17217v1
- Date: Tue, 27 Feb 2024 05:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:44:05.220120
- Title: Temporal Logic Specification-Conditioned Decision Transformer for
Offline Safe Reinforcement Learning
- Title(参考訳): オフライン安全強化学習のための時相論理仕様条件付き決定変換器
- Authors: Zijian Guo, Weichao Zhou, Wenchao Li
- Abstract要約: 時相論理仕様条件決定変換器(SDT)を提案する。
SDTは信号時間論理の表現力を利用して、エージェントが従うべき複雑な時間規則を指定する。
DSRLベンチマークの実証的な評価は、安全かつ高いリワードポリシーを学ぶ上で、SDTの優れた能力を示している。
- 参考スコア(独自算出の注目度): 8.779834981619045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline safe reinforcement learning (RL) aims to train a constraint
satisfaction policy from a fixed dataset. Current state-of-the-art approaches
are based on supervised learning with a conditioned policy. However, these
approaches fall short in real-world applications that involve complex tasks
with rich temporal and logical structures. In this paper, we propose temporal
logic Specification-conditioned Decision Transformer (SDT), a novel framework
that harnesses the expressive power of signal temporal logic (STL) to specify
complex temporal rules that an agent should follow and the sequential modeling
capability of Decision Transformer (DT). Empirical evaluations on the DSRL
benchmarks demonstrate the better capacity of SDT in learning safe and
high-reward policies compared with existing approaches. In addition, SDT shows
good alignment with respect to different desired degrees of satisfaction of the
STL specification that it is conditioned on.
- Abstract(参考訳): オフラインセーフ強化学習(rl)は、固定データセットから制約満足度ポリシーをトレーニングすることを目的としている。
現在の最先端のアプローチは、条件付きポリシーによる教師付き学習に基づいている。
しかし、これらのアプローチは、時間的および論理的構造が豊富な複雑なタスクを含む実世界のアプリケーションでは不十分である。
本稿では、信号時間論理(STL)の表現力を利用して、エージェントが従うべき複雑な時間規則と、決定変換器(DT)の逐次モデリング能力を指定する新しいフレームワークである、時間論理仕様条件付き決定変換器(SDT)を提案する。
DSRLベンチマークの実証的な評価は、既存のアプローチと比較して、安全性と高いリワードポリシーの学習において、SDTのキャパシティが優れていることを示している。
さらに、sdtは、条件付けされているstl仕様の異なる所望の満足度に関して良好な一致を示す。
関連論文リスト
- DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Signal Temporal Logic Neural Predictive Control [15.540490027770621]
本稿では,信号時相論理(STL)に規定される要件を満たすためにニューラルネットワークコントローラを学習する手法を提案する。
我々のコントローラは、トレーニングにおけるSTLロバストネススコアを最大化するために軌道のロールアウトを学習する。
バックアップポリシは、コントローラがフェールした場合の安全性を保証するように設計されています。
論文 参考訳(メタデータ) (2023-09-10T20:31:25Z) - Safeguarding Learning-based Control for Smart Energy Systems with
Sampling Specifications [0.31498833540989407]
エネルギーシステムの制御における強化学習を用いた課題について検討し,性能要件とは別に,停電回避などの安全性要件も検討した。
実時間時相論理におけるこれらの安全要件が,線形時相論理への離散化によってどのように強化されるのかを詳述する。
論文 参考訳(メタデータ) (2023-08-11T11:09:06Z) - Funnel-based Reward Shaping for Signal Temporal Logic Tasks in
Reinforcement Learning [0.0]
本稿では,STL(Signal Temporal Logic)仕様を適用した制御器を学習するために,抽出可能な強化学習アルゴリズムを提案する。
異なる環境を用いた複数のSTLタスクに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-30T19:38:21Z) - SMT-Based Safety Verification of Data-Aware Processes under Ontologies
(Extended Version) [71.12474112166767]
我々は、このスペクトルで最も調査されたモデルの1つ、すなわち単純なアーティファクトシステム(SAS)の変種を紹介する。
このDLは適切なモデル理論特性を享受し、後方到達性を適用可能なSASを定義することができ、対応する安全問題のPSPACEにおける決定可能性をもたらす。
論文 参考訳(メタデータ) (2021-08-27T15:04:11Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。