論文の概要: Safe DreamerV3: Safe Reinforcement Learning with World Models
- arxiv url: http://arxiv.org/abs/2307.07176v1
- Date: Fri, 14 Jul 2023 06:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 14:53:36.942591
- Title: Safe DreamerV3: Safe Reinforcement Learning with World Models
- Title(参考訳): safe dreamerv3: 世界モデルによる安全強化学習
- Authors: Weidong Huang, Jiaming Ji, Borong Zhang, Chunhe Xia, Yaodong Yang
- Abstract要約: 本稿では,世界モデルにラグランジュ的手法と計画的手法を統合する新しいアルゴリズムであるSafe DreamerV3を紹介する。
本手法は,低次元および視覚のみのタスクでほぼゼロコストを実現するアルゴリズムとして,SafeRLの大幅な進歩を示している。
- 参考スコア(独自算出の注目度): 4.113451838074724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread application of Reinforcement Learning (RL) in real-world
situations is yet to come to fruition, largely as a result of its failure to
satisfy the essential safety demands of such systems. Existing safe
reinforcement learning (SafeRL) methods, employing cost functions to enhance
safety, fail to achieve zero-cost in complex scenarios, including vision-only
tasks, even with comprehensive data sampling and training. To address this, we
introduce Safe DreamerV3, a novel algorithm that integrates both
Lagrangian-based and planning-based methods within a world model. Our
methodology represents a significant advancement in SafeRL as the first
algorithm to achieve nearly zero-cost in both low-dimensional and vision-only
tasks within the Safety-Gymnasium benchmark. Our project website can be found
in: https://sites.google.com/view/safedreamerv3.
- Abstract(参考訳): 現実世界の状況における強化学習(rl)の広範な適用は、その必然的な安全性要求を満たせなかったため、まだ成果を上げていない。
既存の安全強化学習(SafeRL)手法は、安全性を高めるためにコスト関数を使用し、包括的なデータサンプリングやトレーニングでさえも、視覚のみのタスクを含む複雑なシナリオでゼロコストを達成することができない。
そこで我々は,世界モデルにラグランジアンと計画に基づく手法を統合する新しいアルゴリズムであるsafe dreamerv3を提案する。
本手法は,Safe-Gymnasiumベンチマークにおける低次元および視覚のみのタスクにおいて,ほぼゼロコストで実現した最初のアルゴリズムとして,SafeRLの大幅な進歩を示す。
プロジェクトのwebサイトは、https://sites.google.com/view/safedreamerv3.comで見ることができる。
関連論文リスト
- Progressive Safeguards for Safe and Model-Agnostic Reinforcement Learning [5.593642806259113]
我々は、各タスクが安全を監視し、エージェントに報酬信号を提供するセーフガードと同期するメタラーニングプロセスをモデル化する。
セーフガードの設計は手動だが、高レベルでモデルに依存しないため、エンドツーエンドの安全な学習アプローチがもたらされる。
我々は、MinecraftにインスパイアされたGridworld、VizDoomゲーム環境、LLMファインチューニングアプリケーションでフレームワークを評価した。
論文 参考訳(メタデータ) (2024-10-31T16:28:33Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。
しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。
本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文 参考訳(メタデータ) (2024-07-06T03:22:57Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions [43.713259595810854]
安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
論文 参考訳(メタデータ) (2021-10-11T17:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。