論文の概要: LTL-Constrained Policy Optimization with Cycle Experience Replay
- arxiv url: http://arxiv.org/abs/2404.11578v3
- Date: Mon, 24 Mar 2025 23:37:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:50:50.752668
- Title: LTL-Constrained Policy Optimization with Cycle Experience Replay
- Title(参考訳): サイクル体験リプレイによるLTL制約ポリシ最適化
- Authors: Ameesh Shah, Cameron Voloshin, Chenxi Yang, Abhinav Verma, Swarat Chaudhuri, Sanjit A. Seshia,
- Abstract要約: 本稿では,制約の基盤となる構造を利用して満足度を誘導する新たな報酬形成手法であるCycle Replay(CyclER)を紹介する。
我々は、Cycleerの最適化が、最適に近い確率で制約を満たすポリシーを達成するという理論的保証を提供する。
実験結果から,既存のスカラー報酬と組み合わせたCycleerの最適化は,既存の報酬形成方法に優れており,実効性満足度の高い政策を見出すことが示唆された。
- 参考スコア(独自算出の注目度): 19.43224037705577
- License:
- Abstract: Linear Temporal Logic (LTL) offers a precise means for constraining the behavior of reinforcement learning agents. However, in many settings where both satisfaction and optimality conditions are present, LTL is insufficient to capture both. Instead, LTL-constrained policy optimization, where the goal is to optimize a scalar reward under LTL constraints, is needed. This constrained optimization problem proves difficult in deep Reinforcement Learning (DRL) settings, where learned policies often ignore the LTL constraint due to the sparse nature of LTL satisfaction. To alleviate the sparsity issue, we introduce Cycle Experience Replay (CyclER), a novel reward shaping technique that exploits the underlying structure of the LTL constraint to guide a policy towards satisfaction by encouraging partial behaviors compliant with the constraint. We provide a theoretical guarantee that optimizing CyclER will achieve policies that satisfy the LTL constraint with near-optimal probability. We evaluate CyclER in three continuous control domains. Our experimental results show that optimizing CyclER in tandem with the existing scalar reward outperforms existing reward-shaping methods at finding performant LTL-satisfying policies.
- Abstract(参考訳): 線形時間論理(LTL)は、強化学習エージェントの動作を制限するための正確な手段を提供する。
しかし、満足度と最適性条件の両方が存在する多くの環境では、LTLは両方を捉えるには不十分である。
代わりに、LTL制約付きポリシー最適化(LTL制約下でスカラー報酬を最適化すること)が必要である。
この制約付き最適化問題は、学習ポリシーがLTL満足度の少ない性質のためLTL制約を無視することがしばしばある深層強化学習(DRL)設定において困難であることが証明される。
そこで本研究では,LTL制約の基盤となる構造を利用して,制約に適合した部分的行動を促すことで,満足度に対するポリシーを導出する,新たな報酬形成手法であるCycle Experience Replay(CyclER)を紹介する。
我々は、Cycleerの最適化が、LTL制約をほぼ最適確率で満たすポリシーを達成することを理論的に保証する。
3つの連続制御領域におけるCycleerの評価を行った。
実験の結果,既存のスカラー報酬と組み合わせたCycleerの最適化は,実効性LTL満足度を求める上で,既存の報酬形成方法よりも優れていることがわかった。
関連論文リスト
- Constrained LTL Specification Learning from Examples [8.544277223210894]
制約学習と呼ばれる新しいタイプの学習問題を提案する。
肯定的な例と否定的な例に加えて、ユーザーは公式の特性に関する1つ以上の制約を指定できる。
実験により、ATLASは、最先端の学習ツールよりも優れた性能を保ちながら、新しいタイプの学習問題を解決することができることを示した。
論文 参考訳(メタデータ) (2024-12-03T23:15:27Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction [38.683780057806516]
ロボット工学を応用した事前学習型大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、個々のスキルのセットをシークエンシングする能力を示している。
本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。
3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。
論文 参考訳(メタデータ) (2024-06-08T20:56:14Z) - Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。
線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。
CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T16:02:52Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。