論文の概要: Follow the STARs: Dynamic $ω$-Regular Shielding of Learned Policies
- arxiv url: http://arxiv.org/abs/2505.14689v1
- Date: Fri, 11 Apr 2025 16:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.39495
- Title: Follow the STARs: Dynamic $ω$-Regular Shielding of Learned Policies
- Title(参考訳): STARをフォローする: 学習ポリシーの動的$ω$-regular Shielding
- Authors: Ashwani Anand, Satya Prakash Nayak, Ritam Raha, Anne-Kathrin Schmuck,
- Abstract要約: 本稿では,新しい動的ポストシールドフレームワークを提案する。
これは事前計算された確率的ポリシーに対して$omega$-regular correctnessプロパティの完全なクラスを強制する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel dynamic post-shielding framework that enforces the full class of $\omega$-regular correctness properties over pre-computed probabilistic policies. This constitutes a paradigm shift from the predominant setting of safety-shielding -- i.e., ensuring that nothing bad ever happens -- to a shielding process that additionally enforces liveness -- i.e., ensures that something good eventually happens. At the core, our method uses Strategy-Template-based Adaptive Runtime Shields (STARs), which leverage permissive strategy templates to enable post-shielding with minimal interference. As its main feature, STARs introduce a mechanism to dynamically control interference, allowing a tunable enforcement parameter to balance formal obligations and task-specific behavior at runtime. This allows to trigger more aggressive enforcement when needed, while allowing for optimized policy choices otherwise. In addition, STARs support runtime adaptation to changing specifications or actuator failures, making them especially suited for cyber-physical applications. We evaluate STARs on a mobile robot benchmark to demonstrate their controllable interference when enforcing (incrementally updated) $\omega$-regular correctness properties over learned probabilistic policies.
- Abstract(参考訳): 本稿では,事前計算された確率的ポリシに対して,$\omega$-regular correctnessプロパティの全クラスを強制する,新しい動的ポストシールドフレームワークを提案する。
これは、安全シールド(つまり、何も悪いことは起こらないことを保証する)の主流設定から、さらに生命を強制する遮蔽プロセス(すなわち、良いことが最終的に起こることを保証するためのパラダイムシフトを構成する。
その中核となるのがStrategy-Template-based Adaptive Runtime Shields (STAR) であり、最小限の干渉で後処理を可能にするためにパーミッシブなストラテジーテンプレートを利用する。
主な特徴として、STARは動的に干渉を制御するメカニズムを導入し、チューニング可能な強制パラメータが実行時に正式な義務とタスク固有の振る舞いのバランスをとることができる。
これにより、必要に応じてより積極的な執行をトリガーすると同時に、最適化されたポリシー選択を許可することが可能になる。
さらにSTARは仕様の変更やアクチュエータ障害へのランタイム適応をサポートし、特にサイバー物理アプリケーションに適している。
そこで我々は,モバイルロボットベンチマーク上でSTARを評価し,学習確率ポリシーに対する$\omega$-regular correctness特性の強化(増分更新)を行う際の制御可能な干渉を示す。
関連論文リスト
- DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [33.40201949055383]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint [8.071506311915396]
強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。
現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。
本稿では,学習可能な状態依存スラック変数を用いて実装を改善する。
論文 参考訳(メタデータ) (2023-03-08T03:32:50Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - PFPN: Continuous Control of Physically Simulated Characters using
Particle Filtering Policy Network [0.9137554315375919]
本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。
本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-03-16T00:35:36Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。