論文の概要: Nightmare Dreamer: Dreaming About Unsafe States And Planning Ahead
- arxiv url: http://arxiv.org/abs/2601.04686v1
- Date: Thu, 08 Jan 2026 07:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.086461
- Title: Nightmare Dreamer: Dreaming About Unsafe States And Planning Ahead
- Title(参考訳): Nightmare Dreamer:安全でない国家と計画の夢
- Authors: Oluwatosin Oseni, Shengjie Wang, Jun Zhu, Micah Corah,
- Abstract要約: 安全問題に対処するモデルベースのSafe RLアルゴリズムであるNightmare Dreamerを紹介する。
Nightmare Dreamerは、報酬を最大化しながら、ほぼゼロの安全違反を達成する。
- 参考スコア(独自算出の注目度): 23.19869346457359
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) has shown remarkable success in real-world applications, particularly in robotics control. However, RL adoption remains limited due to insufficient safety guarantees. We introduce Nightmare Dreamer, a model-based Safe RL algorithm that addresses safety concerns by leveraging a learned world model to predict potential safety violations and plan actions accordingly. Nightmare Dreamer achieves nearly zero safety violations while maximizing rewards. Nightmare Dreamer outperforms model-free baselines on Safety Gymnasium tasks using only image observations, achieving nearly a 20x improvement in efficiency.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、特にロボット制御において、現実世界の応用において顕著な成功を収めている。
しかし、安全保証が不十分なため、RLの採用は制限されている。
モデルに基づくセーフRLアルゴリズムであるNightmare Dreamerを導入し、学習された世界モデルを利用して潜在的な安全違反を予測し、それに従って行動計画を行う。
Nightmare Dreamerは、報酬を最大化しながら、ほぼゼロの安全違反を達成する。
Nightmare Dreamerは、画像観察だけで安全体育館の作業のモデルなしベースラインを上回り、効率が20倍近く向上した。
関連論文リスト
- Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model [8.915288771953545]
我々は、データ不足の課題を克服できる新しいジェネリザブル・セーフティ・エンハンサー(GenSafe)を導入する。
我々は、複数のSRLアプローチとベンチマーク問題でGenSafeを評価する。
提案するGenSafeは,既存のSRL手法を拡張するための新しい手段を提供するだけでなく,様々なSRLアルゴリズムとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-06-06T09:51:30Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - SafeDreamer: Safe Reinforcement Learning with World Models [7.773096110271637]
本稿では,ラグランジュ的手法を世界モデル計画プロセスに取り入れた新しいアルゴリズムであるSafeDreamerを紹介する。
本手法は,低次元および視覚のみの入力にまたがる様々なタスクにおいて,ほぼゼロコストの性能を実現する。
論文 参考訳(メタデータ) (2023-07-14T06:00:08Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。