論文の概要: Shielded Reinforcement Learning Under Dynamic Temporal Logic Constraints
- arxiv url: http://arxiv.org/abs/2603.17152v1
- Date: Tue, 17 Mar 2026 21:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.402694
- Title: Shielded Reinforcement Learning Under Dynamic Temporal Logic Constraints
- Title(参考訳): 動的時間論理制約下におけるシールド強化学習
- Authors: Sadık Bera Yüksel, Ali Tevfik Buyukkocak, Derya Aksaray,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、様々なロボティクスアプリケーションにおいて有望であるが、安全性と運用上の制約により、実際のシステムへの展開は制限されている。
本稿では,逐次制御障壁関数とモデルフリーRLを利用して,学習プロセスを通じて与えられたタスクが満足されることを保証するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has shown promise in various robotics applications, yet its deployment on real systems is still limited due to safety and operational constraints. The safe RL field has gained considerable attention in recent years, which focuses on imposing safety constraints throughout the learning process. However, real systems often require more complex constraints than just safety, such as periodic recharging or time-bounded visits to specific regions. Imposing such spatio-temporal tasks during learning still remains a challenge. Signal Temporal Logic (STL) is a formal language for specifying temporal properties of real-valued signals and provides a way to express such complex tasks. In this paper, we propose a framework that leverages sequential control barrier functions and model-free RL to ensure that the given STL tasks are satisfied throughout the learning process. Our method extends beyond traditional safety constraints by enforcing rich STL specifications, which can involve visits to dynamic targets with unknown trajectories. We also demonstrate the effectiveness of our framework through various simulations.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、様々なロボティクスアプリケーションにおいて有望であるが、安全性と運用上の制約により、実際のシステムへの展開は制限されている。
近年、安全なRL分野が注目され、学習プロセス全体を通して安全性の制約を課すことに焦点が当てられている。
しかし、実際のシステムは、定期的なチャージや特定の地域への時間境界訪問のような、単なる安全以上の複雑な制約を必要とすることが多い。
このような時空間的タスクを学習中に実施することは依然として課題である。
Signal Temporal Logic (STL) は、実数値信号の時間的特性を特定するための形式言語であり、そのような複雑なタスクを表現する方法を提供する。
本稿では,逐次制御障壁関数とモデルフリーRLを利用して,学習過程を通じて与えられたSTLタスクが満足されることを保証するフレームワークを提案する。
我々の手法は、未知の軌道を持つ動的ターゲットへの訪問を伴って、リッチなSTL仕様を強制することによって、従来の安全制約を超えて拡張する。
また,各種シミュレーションにより,本フレームワークの有効性を実証する。
関連論文リスト
- Zero-Shot Instruction Following in RL via Structured LTL Representations [50.41415009303967]
マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。
この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。
既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
論文 参考訳(メタデータ) (2026-02-15T23:22:50Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL [59.01527054553122]
線形時間論理(LTL)は、最近、複雑で時間的に拡張されたタスクを特定するための強力なフォーマリズムとして採用されている。
既存のアプローチにはいくつかの欠点がある。
これらの問題に対処するための新しい学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Funnel-based Reward Shaping for Signal Temporal Logic Tasks in
Reinforcement Learning [0.0]
本稿では,STL(Signal Temporal Logic)仕様を適用した制御器を学習するために,抽出可能な強化学習アルゴリズムを提案する。
異なる環境を用いた複数のSTLタスクに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-30T19:38:21Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。