論文の概要: Predictive Safety Shield for Dyna-Q Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.21531v1
- Date: Wed, 26 Nov 2025 15:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.185795
- Title: Predictive Safety Shield for Dyna-Q Reinforcement Learning
- Title(参考訳): ダイナQ強化学習のための予測安全シールド
- Authors: Jin Pin, Krasowski Hanna, Vanneaux Elena,
- Abstract要約: 離散空間におけるモデルに基づく強化学習エージェントの予測安全シールドを提案する。
我々の安全シールドは、環境モデルの安全なシミュレーションから生じる安全な予測に基づいて、Q関数を局所的に更新する。
グリッドワールド環境に関する我々の実験は、たとえ短い予測地平線であっても最適な経路を特定するのに十分であることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Obtaining safety guarantees for reinforcement learning is a major challenge to achieve applicability for real-world tasks. Safety shields extend standard reinforcement learning and achieve hard safety guarantees. However, existing safety shields commonly use random sampling of safe actions or a fixed fallback controller, therefore disregarding future performance implications of different safe actions. In this work, we propose a predictive safety shield for model-based reinforcement learning agents in discrete space. Our safety shield updates the Q-function locally based on safe predictions, which originate from a safe simulation of the environment model. This shielding approach improves performance while maintaining hard safety guarantees. Our experiments on gridworld environments demonstrate that even short prediction horizons can be sufficient to identify the optimal path. We observe that our approach is robust to distribution shifts, e.g., between simulation and reality, without requiring additional training.
- Abstract(参考訳): 強化学習の安全性を保証することは、現実世界のタスクへの適用性を達成する上で大きな課題である。
安全シールドは標準的な強化学習を拡張し、厳しい安全保証を達成する。
しかし、既存の安全シールドは、通常、ランダムな安全なアクションのサンプリングや固定されたフォールバックコントローラを使用するため、異なる安全なアクションの将来のパフォーマンスへの影響を無視している。
本研究では,離散空間におけるモデルベース強化学習エージェントの予測安全シールドを提案する。
我々の安全シールドは、環境モデルの安全なシミュレーションから生じる安全な予測に基づいて、Q関数を局所的に更新する。
このシールドアプローチは、ハードセーフティの保証を維持しながらパフォーマンスを向上させる。
グリッドワールド環境に関する我々の実験は、たとえ短い予測地平線であっても最適な経路を特定するのに十分であることを示した。
我々は,シミュレーションと現実の分散シフトに対して,追加のトレーニングを必要とせずに,アプローチが堅牢であることを観察した。
関連論文リスト
- ProSh: Probabilistic Shielding for Model-free Reinforcement Learning [11.125968799758434]
本稿では,コスト制約下での安全な強化学習のためのモデルフリーアルゴリズムであるProSh(Probabilistic Shielding via Risk Augmentation)を紹介する。
ProShは、学習したコスト批評家を使用してエージェントのポリシー分布にシールドを適用することで安全性を強制する。
環境が決定論的である場合には最適性が保たれることを示す。
論文 参考訳(メタデータ) (2025-10-17T15:08:51Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。