論文の概要: Safe Reinforcement Learning From Pixels Using a Stochastic Latent
Representation
- arxiv url: http://arxiv.org/abs/2210.01801v1
- Date: Sun, 2 Oct 2022 19:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:57:39.662255
- Title: Safe Reinforcement Learning From Pixels Using a Stochastic Latent
Representation
- Title(参考訳): 確率潜在表現を用いた画素からの安全強化学習
- Authors: Yannick Hogewind, Thiago D. Simao, Tal Kachman, Nils Jansen
- Abstract要約: 我々は,画素観測による安全強化学習の課題に対処する。
制約付き、部分的に観測可能なマルコフ決定プロセスフレームワークで問題を定式化する。
我々は、潜伏アクター批判(SLAC)アプローチを用いて、新しい安全評論家を採用する。
- 参考スコア(独自算出の注目度): 3.5884936187733394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of safe reinforcement learning from pixel
observations. Inherent challenges in such settings are (1) a trade-off between
reward optimization and adhering to safety constraints, (2) partial
observability, and (3) high-dimensional observations. We formalize the problem
in a constrained, partially observable Markov decision process framework, where
an agent obtains distinct reward and safety signals. To address the curse of
dimensionality, we employ a novel safety critic using the stochastic latent
actor-critic (SLAC) approach. The latent variable model predicts rewards and
safety violations, and we use the safety critic to train safe policies. Using
well-known benchmark environments, we demonstrate competitive performance over
existing approaches with respects to computational requirements, final reward
return, and satisfying the safety constraints.
- Abstract(参考訳): 我々は,ピクセル観測からの安全強化学習の問題に対処する。
本研究の課題は,(1)報酬最適化と安全制約の遵守のトレードオフ,(2)部分観測可能性,(3)高次元観測である。
エージェントが個別の報酬と安全信号を取得する制約付き、部分的に観測可能なマルコフ決定プロセスフレームワークで問題を定式化する。
次元性の呪いに対処するために,確率的潜在的アクター批判(SLAC)アプローチを用いて,新しい安全評論家を採用する。
潜在変数モデルは報酬と安全違反を予測し、安全評論家を用いて安全政策を訓練する。
著名なベンチマーク環境を用いて,計算要求,最終報酬返却,安全性制約を満たすため,既存の手法よりも競争力の高い性能を示す。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Safe Reinforcement Learning in Constrained Markov Decision Processes [20.175139766171277]
本稿では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。
我々は、安全制約の満足度と累積報酬のほぼ最適性の両方を理論的に保証する。
論文 参考訳(メタデータ) (2020-08-15T02:20:23Z) - Verifiably Safe Exploration for End-to-End Reinforcement Learning [17.401496872603943]
本稿では,視覚的入力によるエンドツーエンドポリシーの形式的安全性制約の実施に向けた最初のアプローチを提案する。
厳密な制約の存在下で安全に探索することの難しさを強調する新しいベンチマークで評価されている。
論文 参考訳(メタデータ) (2020-07-02T16:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。