論文の概要: Dyna-Style Safety Augmented Reinforcement Learning: Staying Safe in the Face of Uncertainty
- arxiv url: http://arxiv.org/abs/2604.25508v1
- Date: Tue, 28 Apr 2026 11:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.832641
- Title: Dyna-Style Safety Augmented Reinforcement Learning: Staying Safe in the Face of Uncertainty
- Title(参考訳): Dyna-Style Safety Augmented Reinforcement Learning: Staying Safe in the Face of Uncertainty
- Authors: Artur Eisele, Bernd Frauenknecht, Friedrich Solowjow, Sebastian Trimpe,
- Abstract要約: 安全は、特に訓練中に強化学習(RL)において未解決の問題である。
本稿では,スケーラブルな安全フィルタと制御ポリシの両方を学習する新しいアルゴリズムであるDyna-style Safety Augmented Reinforcement Learning (Dyna-SAuR)を提案する。
In this present the effect of Dyna-SAuR on goal-reaching CartPole as MuJoCo Walker, reduce failures than state-of-the-art method by 2 order of magnitude。
- 参考スコア(独自算出の注目度): 16.043128116052397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety remains an open problem in reinforcement learning (RL), especially during training. While safety filters are promising to address safe exploration, they are generally poorly suited for high-dimensional systems with unknown dynamics. We propose Dyna-style Safety Augmented Reinforcement Learning (Dyna-SAuR), a novel algorithm that learns both a scalable safety filter and a control policy using a learned uncertainty-aware dynamics model, while requiring minimal domain knowledge. The filter avoids failures and high uncertainty regions. Thus, better models expand the set of safe and certain states, reducing filter conservatism. We present the effectiveness of Dyna-SAuR on goal-reaching CartPole as well as MuJoCo Walker, reducing failures compared to state-of-the-art methods by 2 orders of magnitude.
- Abstract(参考訳): 安全は、特に訓練中に強化学習(RL)において未解決の問題である。
安全フィルタは安全な探査に向いているが、一般に未知の力学を持つ高次元システムには適していない。
本研究では,Dyna-style Safety Augmented Reinforcement Learning (Dyna-SAuR)を提案する。
このフィルタは、故障や高い不確実性領域を避ける。
したがって、より優れたモデルは安全な状態と特定の状態の集合を拡張し、フィルタ保守性を減少させる。
In this present the effect of Dyna-SAuR on goal-reaching CartPole as MuJoCo Walker, reduce failures than state-of-the-art method by 2 order of magnitude。
関連論文リスト
- Safe Guaranteed Dynamics Exploration with Probabilistic Models [34.655934881761446]
我々は,安全政策の空間における十分な探索を通して,最大安全力学学習の概念を導入する。
我々は、動的に連続的にオンライン学習することを保証する、$textitpessimistically$safeフレームワークを提案する。
自動運転車レースやドローンナビゲーションといった課題領域におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-09-20T11:55:24Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。