論文の概要: DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications
- arxiv url: http://arxiv.org/abs/2410.04631v1
- Date: Sun, 6 Oct 2024 21:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:26:32.339642
- Title: DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications
- Title(参考訳): DeepLTL: 複雑なTL仕様を効果的に満足する学習
- Authors: Mathias Jackermeier, Alessandro Abate,
- Abstract要約: リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
- 参考スコア(独自算出の注目度): 59.01527054553122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear temporal logic (LTL) has recently been adopted as a powerful formalism for specifying complex, temporally extended tasks in reinforcement learning (RL). However, learning policies that efficiently satisfy arbitrary specifications not observed during training remains a challenging problem. Existing approaches suffer from several shortcomings: they are often only applicable to finite-horizon fragments of LTL, are restricted to suboptimal solutions, and do not adequately handle safety constraints. In this work, we propose a novel learning approach to address these concerns. Our method leverages the structure of B\"uchi automata, which explicitly represent the semantics of LTL specifications, to learn policies conditioned on sequences of truth assignments that lead to satisfying the desired formulae. Experiments in a variety of discrete and continuous domains demonstrate that our approach is able to zero-shot satisfy a wide range of finite- and infinite-horizon specifications, and outperforms existing methods in terms of both satisfaction probability and efficiency.
- Abstract(参考訳): リニア時間論理(LTL)は、強化学習(RL)において、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして最近採用されている。
しかし、学習中に観察されない任意の仕様を効率的に満たす学習方針は、依然として難しい問題である。
既存のアプローチはいくつかの欠点に悩まされており、それらはLTLの有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は,LTL仕様のセマンティクスを明示的に表現したB\「内オートマティクス」の構造を利用して,所望の式を満たす真理代入の順序に規定されたポリシーを学習する。
様々な離散領域および連続領域の実験により、我々のアプローチは、有限および無限水平仕様の範囲を満たすことができ、満足度確率と効率の両方の観点から既存の手法より優れていることを示した。
関連論文リスト
- Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - LTL-Constrained Policy Optimization with Cycle Experience Replay [19.43224037705577]
線形論理(LTL)は、強化学習エージェントの動作を制限するための正確な手段を提供する。
本稿では、この問題に対する報酬形成アプローチであるCyclER(CyclER)について紹介する。
論文 参考訳(メタデータ) (2024-04-17T17:24:44Z) - Neural Fields with Hard Constraints of Arbitrary Differential Order [61.49418682745144]
我々は、ニューラルネットワークに厳しい制約を課すための一連のアプローチを開発する。
制約は、ニューラルネットワークとそのデリバティブに適用される線形作用素として指定することができる。
私たちのアプローチは、広範囲の現実世界のアプリケーションで実証されています。
論文 参考訳(メタデータ) (2023-06-15T08:33:52Z) - An Option-Dependent Analysis of Regret Minimization Algorithms in
Finite-Horizon Semi-Markov Decision Processes [47.037877670620524]
有限ホライゾン問題における後悔最小化アルゴリズムに苦しむ後悔に対するオプション依存上界について述べる。
本稿では,階層構造によって強制される時間的抽象化によって誘導される計画的地平線低減から,性能改善が導かれることを示す。
論文 参考訳(メタデータ) (2023-05-10T15:00:05Z) - Reinforcement Learning for General LTL Objectives Is Intractable [10.69663517250214]
我々は、マルコフ決定プロセス(PACMDP)フレームワークにおいて、おそらく正しい学習の下で問題を定式化する。
この結果から, 強化学習アルゴリズムでは, 学習ポリシーの性能に対するPAC-MDP保証を得ることは不可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-24T18:26:13Z) - Learning Implicitly with Noisy Data in Linear Arithmetic [94.66549436482306]
PAC-セマンティックスにおける暗黙学習を拡張し、線形算術の言語における間隔としきい値の不確実性を扱う。
最適線形プログラミング対象制約の学習に対する我々の暗黙的アプローチは、実際的な明示的アプローチよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2020-10-23T19:08:46Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。