論文の概要: SafeDreamer: Safe Reinforcement Learning with World Models
- arxiv url: http://arxiv.org/abs/2307.07176v3
- Date: Wed, 7 Aug 2024 19:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 21:19:12.477039
- Title: SafeDreamer: Safe Reinforcement Learning with World Models
- Title(参考訳): SafeDreamer: 世界モデルによる安全な強化学習
- Authors: Weidong Huang, Jiaming Ji, Chunhe Xia, Borong Zhang, Yaodong Yang,
- Abstract要約: 本稿では,ラグランジュ的手法を世界モデル計画プロセスに取り入れた新しいアルゴリズムであるSafeDreamerを紹介する。
本手法は,低次元および視覚のみの入力にまたがる様々なタスクにおいて,ほぼゼロコストの性能を実現する。
- 参考スコア(独自算出の注目度): 7.773096110271637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of Reinforcement Learning (RL) in real-world applications is constrained by its failure to satisfy safety criteria. Existing Safe Reinforcement Learning (SafeRL) methods, which rely on cost functions to enforce safety, often fail to achieve zero-cost performance in complex scenarios, especially vision-only tasks. These limitations are primarily due to model inaccuracies and inadequate sample efficiency. The integration of the world model has proven effective in mitigating these shortcomings. In this work, we introduce SafeDreamer, a novel algorithm incorporating Lagrangian-based methods into world model planning processes within the superior Dreamer framework. Our method achieves nearly zero-cost performance on various tasks, spanning low-dimensional and vision-only input, within the Safety-Gymnasium benchmark, showcasing its efficacy in balancing performance and safety in RL tasks. Further details can be found in the code repository: \url{https://github.com/PKU-Alignment/SafeDreamer}.
- Abstract(参考訳): 実世界のアプリケーションにおける強化学習(RL)の展開は、安全性基準を満たしていないことによる制約がある。
既存のSafe Reinforcement Learning (SafeRL)メソッドは、安全性を強制するためにコスト関数に依存しており、複雑なシナリオ、特に視覚のみのタスクにおいてゼロコストのパフォーマンスを達成することができないことが多い。
これらの制限は、主にモデルの不正確さとサンプル効率の不十分さに起因する。
世界モデルの統合は、これらの欠点を軽減するのに有効であることが証明されている。
本研究では,より優れたドリーマーフレームワーク内の世界モデル計画プロセスにラグランジュ的手法を取り入れた新しいアルゴリズムであるSafeDreamerを紹介する。
提案手法は,低次元および視覚のみの入力にまたがる各種タスクにおけるほぼゼロコスト性能をセーフティ・ジムナシウム・ベンチマークで達成し,RLタスクの性能と安全性のバランスをとる上での有効性を示す。
詳細は、コードリポジトリにある。 \url{https://github.com/PKU-Alignment/SafeDreamer}。
関連論文リスト
- Progressive Safeguards for Safe and Model-Agnostic Reinforcement Learning [5.593642806259113]
我々は、各タスクが安全を監視し、エージェントに報酬信号を提供するセーフガードと同期するメタラーニングプロセスをモデル化する。
セーフガードの設計は手動だが、高レベルでモデルに依存しないため、エンドツーエンドの安全な学習アプローチがもたらされる。
我々は、MinecraftにインスパイアされたGridworld、VizDoomゲーム環境、LLMファインチューニングアプリケーションでフレームワークを評価した。
論文 参考訳(メタデータ) (2024-10-31T16:28:33Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。
しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。
本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文 参考訳(メタデータ) (2024-07-06T03:22:57Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions [43.713259595810854]
安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
論文 参考訳(メタデータ) (2021-10-11T17:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。