論文の概要: Adaptive GR(1) Specification Repair for Liveness-Preserving Shielding in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.02605v1
- Date: Tue, 04 Nov 2025 14:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.072801
- Title: Adaptive GR(1) Specification Repair for Liveness-Preserving Shielding in Reinforcement Learning
- Title(参考訳): 適応GR(1)強化学習における生体保護シールドの仕様修正
- Authors: Tiberiu-Andrei Georgescu, Alexander W. Goodall, Dalal Alrajeh, Francesco Belardinelli, Sebastian Uchitel,
- Abstract要約: シールドは強化学習(RL)の安全性を高めるために広く用いられている
我々は、ランク1(GR(1))仕様の一般化反応性に基づく、最初の適応シールドフレームワークを開発する。
本手法では,実行時に環境仮定違反を検出し,インダクティブ論理プログラミング(ILP)を用いてGR(1)仕様をオンラインに自動修正する。
- 参考スコア(独自算出の注目度): 46.90899478779653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shielding is widely used to enforce safety in reinforcement learning (RL), ensuring that an agent's actions remain compliant with formal specifications. Classical shielding approaches, however, are often static, in the sense that they assume fixed logical specifications and hand-crafted abstractions. While these static shields provide safety under nominal assumptions, they fail to adapt when environment assumptions are violated. In this paper, we develop the first adaptive shielding framework - to the best of our knowledge - based on Generalized Reactivity of rank 1 (GR(1)) specifications, a tractable and expressive fragment of Linear Temporal Logic (LTL) that captures both safety and liveness properties. Our method detects environment assumption violations at runtime and employs Inductive Logic Programming (ILP) to automatically repair GR(1) specifications online, in a systematic and interpretable way. This ensures that the shield evolves gracefully, ensuring liveness is achievable and weakening goals only when necessary. We consider two case studies: Minepump and Atari Seaquest; showing that (i) static symbolic controllers are often severely suboptimal when optimizing for auxiliary rewards, and (ii) RL agents equipped with our adaptive shield maintain near-optimal reward and perfect logical compliance compared with static shields.
- Abstract(参考訳): シールドは強化学習(RL)の安全性を強制するために広く使われており、エージェントの動作が正式な仕様に準拠していることを保証する。
しかし、古典的な遮蔽アプローチは、固定された論理的仕様と手作りの抽象化を仮定するという意味で、しばしば静的である。
これらの静的シールドは、名目上の仮定の下で安全性を提供するが、環境仮定に違反した場合は適応しない。
本稿では,LTL(Linear Temporal Logic)の包括的かつ表現力のある断片であるGR(1)仕様の一般反応性に基づく,最初の適応型遮蔽フレームワークを開発する。
提案手法は,実行時に環境仮定違反を検出し,インダクティブ論理プログラミング(ILP)を用いて,GR(1)仕様をオンラインに,体系的かつ解釈可能な方法で自動修正する。
これによりシールドが優雅に進化し、生きることが達成可能であり、必要なときにのみ目標を弱める。
我々は、MinepumpとAtari Seaquestの2つのケーススタディについて考察する。
(i)補助報酬を最適化する際には、静的シンボルコントローラが極端に最適である場合が多い。
(II) 適応シールドを備えたRLエージェントは, 静的シールドと比較して, ほぼ最適報酬と完全論理順守を維持している。
関連論文リスト
- UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - LatentGuard: Controllable Latent Steering for Robust Refusal of Attacks and Reliable Response Generation [4.29885665563186]
LATENTGUARDは、行動アライメントと教師付き潜在空間制御を組み合わせて、解釈可能で正確な安全操縦を行うフレームワークである。
本研究は, 実用性を損なうことなく, 安全性制御性と応答解釈性の両方を向上することを示す。
論文 参考訳(メタデータ) (2025-09-24T07:31:54Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Probing the Robustness of Large Language Models Safety to Latent Perturbations [30.16804362984161]
安全アライメントは、信頼できる人工知能を構築する上で重要な要件である。
我々は、小さな潜伏シフトが、整列モデルにおける安全でない応答を引き起こすことを観察する。
学習中に隠された表現に制御された摂動を注入する微調整戦略であるLayer-wise Adversarial Patch Training (LAPT)を導入する。
論文 参考訳(メタデータ) (2025-06-19T07:03:05Z) - Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。
また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文 参考訳(メタデータ) (2024-07-29T12:23:59Z) - Shielded Reinforcement Learning for Hybrid Systems [1.0485739694839669]
強化学習は、ほぼ最適に近いコントローラを構築するために利用されてきたが、それらの動作は安全であると保証されていない。
学習したコントローラーに安全を課す方法の1つは、設計によって正しいシールドを使用することである。
本研究では,いわゆる野蛮な手法によるシールドの構築を提案し,基礎となるパーティションベースの2プレーヤ安全ゲームの近似有限表現を抽出する。
論文 参考訳(メタデータ) (2023-08-28T09:04:52Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Safe Reinforcement Learning via Shielding for POMDPs [29.058332307331785]
安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。
我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
論文 参考訳(メタデータ) (2022-04-02T03:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。