論文の概要: Integrating LTL Constraints into PPO for Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.01292v1
- Date: Sun, 01 Mar 2026 21:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.612862
- Title: Integrating LTL Constraints into PPO for Safe Reinforcement Learning
- Title(参考訳): 安全強化学習のためのLTL制約をPPOに統合する
- Authors: Maifang Zhang, Hang Yu, Qian Zuo, Cheng Wang, Vaishak Belle, Fengxiang He,
- Abstract要約: 本稿では,PPO で書かれた安全制約を PPO に統合し,安全な強化学習を実現するフレームワークを提案する。
我々のPPO-LTLは、最先端の手法に対して、競争性能を維持しながら、安全違反を一貫して軽減することができる。
- 参考スコア(独自算出の注目度): 27.055056884492984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes Proximal Policy Optimization with Linear Temporal Logic Constraints (PPO-LTL), a framework that integrates safety constraints written in LTL into PPO for safe reinforcement learning. LTL constraints offer rigorous representations of complex safety requirements, such as regulations that broadly exist in robotics, enabling systematic monitoring of safety requirements. Violations against LTL constraints are monitored by limit-deterministic Büchi automata, and then translated by a logic-to-cost mechanism into penalty signals. The signals are further employed for guiding the policy optimization via the Lagrangian scheme. Extensive experiments on the Zones and CARLA environments show that our PPO-LTL can consistently reduce safety violations, while maintaining competitive performance, against the state-of-the-art methods. The code is at https://github.com/EVIEHub/PPO-LTL.
- Abstract(参考訳): 本稿では,LTLで記述された安全制約をPPOに統合し,安全強化学習を実現するフレームワークである線形時間論理制約(PPO-LTL)を用いたPPOポリシー最適化を提案する。
LTL制約は、ロボット工学に広く存在する規制のような複雑な安全要件の厳密な表現を提供し、安全要件の体系的な監視を可能にする。
LTL制約に対する違反は、制限決定論的ビューチオートマトンによって監視され、論理対コスト機構によってペナルティ信号に変換される。
これらの信号は、ラグランジアンスキームを通じてポリシー最適化を導くためにさらに使用される。
ゾーンとCARLA環境に関する大規模な実験により、我々のPPO-LTLは、最先端の手法に対して、競争性能を維持しながら、安全違反を一貫して軽減できることが示された。
コードはhttps://github.com/EVIEHub/PPO-LTLにある。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Learning Robust and Correct Controllers Guided by Feasibility-Aware Signal Temporal Logic via BarrierNet [5.174839530270601]
制御バリア関数(CBF)は、最適化ベースのコントローラの安全性を高める強力なツールとして登場した。
CBFを微分可能二次プログラム(dQP)に組み込む実現可能性を考慮した学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-07T19:52:27Z) - Exchange Policy Optimization Algorithm for Semi-Infinite Safe Reinforcement Learning [26.75757359001632]
本稿では,最適政策性能と決定論的境界安全性を実現するアルゴリズムフレームワークである交換ポリシ最適化(EPO)を提案する。
EPOは、有限制約集合で安全なRLサブプロブレムを反復的に解き、制約拡張と削除を通じて活性集合を適応的に調整することで機能する。
我々の理論的分析は、軽微な仮定の下で、EPOによって訓練された戦略が、所定の限界内に厳密に残されている大域的制約違反を伴う最適解に匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2025-11-06T07:51:58Z) - SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。
その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。
SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-26T14:50:01Z) - LTL-Constrained Policy Optimization with Cycle Experience Replay [19.43224037705577]
本稿では,制約の基盤となる構造を利用して満足度を誘導する新たな報酬形成手法であるCycle Replay(CyclER)を紹介する。
我々は、Cycleerの最適化が、最適に近い確率で制約を満たすポリシーを達成するという理論的保証を提供する。
実験結果から,既存のスカラー報酬と組み合わせたCycleerの最適化は,既存の報酬形成方法に優れており,実効性満足度の高い政策を見出すことが示唆された。
論文 参考訳(メタデータ) (2024-04-17T17:24:44Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Lyapunov Barrier Policy Optimization [15.364174084072872]
本稿では,lyapunovベースのバリア関数を用いて,トレーニングイテレーション毎にポリシ更新をセーフセットに制限する手法であるlbpoを提案する。
また,本手法により,環境の制約に対して,エージェントの保守性を制御できる。
論文 参考訳(メタデータ) (2021-03-16T17:58:27Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。