論文の概要: Safe Exploration Using Bayesian World Models and Log-Barrier Optimization
- arxiv url: http://arxiv.org/abs/2405.05890v1
- Date: Thu, 9 May 2024 16:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 12:43:04.424681
- Title: Safe Exploration Using Bayesian World Models and Log-Barrier Optimization
- Title(参考訳): ベイジアン世界モデルとログバリア最適化を用いた安全な探索
- Authors: Yarden As, Bhavya Sukhija, Andreas Krause,
- Abstract要約: CERLは、学習中にポリシーを安全に保ちながら、制約付きマルコフ決定プロセスを解決するための新しい方法である。
CERLは、画像観測からCMDPを解く際の安全性と最適性の観点から、現在の最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 40.77789028220837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in deploying reinforcement learning in online tasks is ensuring that safety is maintained throughout the learning process. In this work, we propose CERL, a new method for solving constrained Markov decision processes while keeping the policy safe during learning. Our method leverages Bayesian world models and suggests policies that are pessimistic w.r.t. the model's epistemic uncertainty. This makes CERL robust towards model inaccuracies and leads to safe exploration during learning. In our experiments, we demonstrate that CERL outperforms the current state-of-the-art in terms of safety and optimality in solving CMDPs from image observations.
- Abstract(参考訳): オンラインタスクにおける強化学習の展開における大きな課題は、学習プロセス全体を通して安全性を維持することである。
本研究では,制約付きマルコフ決定過程の解法であるCERLを提案する。
我々の手法はベイズ世界のモデルを活用し、そのモデルの疫学的な不確実性に悲観的な政策を提案する。
これにより、CERLはモデル不正確性に対して堅牢になり、学習中の安全な探索につながる。
実験では,画像観測からCMDPを解く際の安全性と最適性の観点から,CERLが現状よりも優れていることを示した。
関連論文リスト
- Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。
LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T21:48:14Z) - DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe
Multi-Agent Reinforcement Learning [11.407941376728258]
安全なマルチエージェント強化学習(DeepSafeMPC)のためのDeep Learning-based Model Predictive Controlと呼ばれる新しい手法を提案する。
DeepSafeMPCの重要な洞察は、環境力学を正確に予測するために、エンタライズされたディープラーニングモデルを活用することである。
Safe Multi-agent MuJoCo 環境を用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-11T03:17:33Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Safe Reinforcement Learning in Constrained Markov Decision Processes [20.175139766171277]
本稿では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。
我々は、安全制約の満足度と累積報酬のほぼ最適性の両方を理論的に保証する。
論文 参考訳(メタデータ) (2020-08-15T02:20:23Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。