論文の概要: Easy-to-Use Shielding for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.03804v1
- Date: Tue, 02 Jun 2026 15:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.126776
- Title: Easy-to-Use Shielding for Reinforcement Learning
- Title(参考訳): 強化学習のための使い易いシールド
- Authors: Stefan Pranger, Bettina Könighofer,
- Abstract要約: シールドは、アクションセーフティを決定するための環境モデルという形でドメイン知識を仮定するテクニックである。
シールドの適用には、通常、正式な手法と実質的なエンジニアリング作業の専門知識が必要である。
我々はシールド合成ツールであるTempestを安全なRLのための実用的なバックエンドに拡張する。
- 参考スコア(独自算出の注目度): 4.640835690336653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe exploration is a key challenge in Reinforcement Learning (RL) that aims to prevent agents from making harmful decisions while exploring their environment. Safe exploration is a key challenge in Reinforcement Learning (RL) that aims to prevent agents from making harmful decisions while exploring their environment. Shielding is one such technique that assumes domain knowledge in the form of an environment model to decide upon action safety. Although well-established, shielding has seen limited adoption in RL due to the lack of accessible end-to-end infrastructure connecting formal shield synthesis with standard RL frameworks. Applying shielding typically requires expertise in formal methods and substantial engineering effort, keeping it outside the typical RL workflow. We address this by extending our shield synthesis tool Tempest into a practical backend for safe RL. Our core contribution is tempestpy, a Python library that integrates Tempest-based shield synthesis directly into the Gymnasium API, allowing shields to be synthesized and deployed within existing RL pipelines. This lowers the barrier to entry for shielding and turns formal safe-exploration methods into a usable component for RL practitioners. We also extend Tempest's algorithmic support to compute sound shields for stochastic multiplayer games, preserving formal safety guarantees. We demonstrate the resulting workflow end to end and evaluate shielded and unshielded RL across multiple environments. To facilitate modeling, we provide symbolic models for MiniGrid and introduce MiniGridSafe, a collection of playground environments designed to make shielding easily accessible and experimentally transparent. MiniGridSafe extends MiniGrid with safety-oriented scenarios featuring probabilistic transitions and additional agents, enabling the study of challenging safety aspects in a simple and intuitive setting.
- Abstract(参考訳): 安全探索は、エージェントが環境を探索しながら有害な決定を下すのを防ぐことを目的とした強化学習(RL)における重要な課題である。
安全探索は、エージェントが環境を探索しながら有害な決定を下すのを防ぐことを目的とした強化学習(RL)における重要な課題である。
シールドは、アクションセーフティを決定するための環境モデルという形でドメイン知識を仮定するテクニックのひとつです。
十分に確立されたものの、標準のRLフレームワークと公式なシールド合成を接続するエンドツーエンドのインフラストラクチャが欠如しているため、シールドはRLでしか採用されていない。
シールドを適用するには、通常、形式的な手法と実質的なエンジニアリング作業の専門知識が必要で、典型的なRLワークフローの外部に置いておく必要がある。
我々は、シールド合成ツールであるTempestを安全なRLのための実用的なバックエンドに拡張することで、この問題に対処する。
これはPythonライブラリで、Tempestベースのシールド合成を直接Gymnasium APIに統合します。
これにより、シールドの参入障壁を低くし、正式な安全な探索メソッドをRL実践者にとって有用なコンポーネントにする。
我々はまた、確率的マルチプレイヤーゲームのためのサウンドシールドを計算するために、テンペストのアルゴリズムサポートを拡張し、正式な安全保証を保持する。
結果のワークフローをエンドツーエンドで実証し、シールド付きおよびシールドなしのRLを複数の環境にわたって評価する。
モデリングを容易にするために,MiniGridのシンボリックモデルとMiniGridSafeを導入する。
MiniGridSafeは、確率的遷移と追加エージェントを備えた安全指向のシナリオでMiniGridを拡張し、シンプルで直感的な設定で、挑戦的な安全性面の研究を可能にする。
関連論文リスト
- UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [48.20360860166279]
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
論文 参考訳(メタデータ) (2025-08-16T04:28:52Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Shielded Deep Reinforcement Learning for Complex Spacecraft Tasking [8.70769551252572]
まず、宇宙船の作業や安全要件を形式化するための形式言語であるLTL(Linear Temporal Logic)について検討する。
次に、SDRLフレームワークにおける効果的なトレーニングのために、コセーフ仕様から報酬関数を自動で構築する方法を定義する。
いくつかの実験を通して、これらのシールドが異なるポリシーや報酬構造の柔軟性とどのように相互作用するかを示す。
論文 参考訳(メタデータ) (2024-03-08T22:04:25Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Safe Reinforcement Learning via Shielding for POMDPs [29.058332307331785]
安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。
我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
論文 参考訳(メタデータ) (2022-04-02T03:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。