論文の概要: SAAC: Safe Reinforcement Learning as an Adversarial Game of
Actor-Critics
- arxiv url: http://arxiv.org/abs/2204.09424v1
- Date: Wed, 20 Apr 2022 12:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:42:16.427564
- Title: SAAC: Safe Reinforcement Learning as an Adversarial Game of
Actor-Critics
- Title(参考訳): SAAC: アクター批判の対抗ゲームとしての安全な強化学習
- Authors: Yannis Flet-Berliac and Debabrota Basu
- Abstract要約: そこで我々は,SAACと呼ばれるソフトアクター批判フレームワークを開発した。
SAACでは、RLエージェントが制約値関数の最大化を目標として、安全制約を破ることを目的としている。
安全性の制約を満たすために,SAACはより早く収束し,効率が良く,障害が少なくなることを示す。
- 参考スコア(独自算出の注目度): 11.132587007566329
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although Reinforcement Learning (RL) is effective for sequential
decision-making problems under uncertainty, it still fails to thrive in
real-world systems where risk or safety is a binding constraint. In this paper,
we formulate the RL problem with safety constraints as a non-zero-sum game.
While deployed with maximum entropy RL, this formulation leads to a safe
adversarially guided soft actor-critic framework, called SAAC. In SAAC, the
adversary aims to break the safety constraint while the RL agent aims to
maximize the constrained value function given the adversary's policy. The
safety constraint on the agent's value function manifests only as a repulsion
term between the agent's and the adversary's policies. Unlike previous
approaches, SAAC can address different safety criteria such as safe
exploration, mean-variance risk sensitivity, and CVaR-like coherent risk
sensitivity. We illustrate the design of the adversary for these constraints.
Then, in each of these variations, we show the agent differentiates itself from
the adversary's unsafe actions in addition to learning to solve the task.
Finally, for challenging continuous control tasks, we demonstrate that SAAC
achieves faster convergence, better efficiency, and fewer failures to satisfy
the safety constraints than risk-averse distributional RL and risk-neutral soft
actor-critic algorithms.
- Abstract(参考訳): 不確実性下での逐次的意思決定問題には強化学習(rl)が有効であるが、リスクや安全性が拘束力の制約である現実のシステムでは、まだ成功していない。
本稿では,安全制約付きRL問題を非ゼロサムゲームとして定式化する。
最大エントロピーRLで展開する一方で、この定式化はSAACと呼ばれるソフトアクター批判フレームワークを安全に誘導する。
saacでは、敵は安全制約を破ることを目標とし、rlエージェントは敵の方針に従って制約付き値関数を最大化することを目指している。
エージェントの価値関数に対する安全性の制約は、エージェントと相手のポリシーの間の反発項としてのみ現れる。
従来のアプローチとは異なり、SAACは安全な探索、平均分散リスク感度、CVaRのようなコヒーレントリスク感度といった異なる安全性基準に対処することができる。
我々は、これらの制約に対する敵の設計を説明する。
そして,これらの変化のそれぞれにおいて,エージェントは,タスクの学習に加えて,敵の安全でない行動と区別することを示す。
最後に, リスク逆分布RLやリスクニュートラルなソフトアクター批判アルゴリズムよりも, 安全制約を満たすために, SAACがより高速な収束, 効率の向上, 失敗の少ないことを実証する。
関連論文リスト
- Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T05:34:46Z) - Safe Reinforcement Learning with Dual Robustness [10.455148541147796]
強化学習(RL)エージェントは敵の障害に対して脆弱である。
安全なRLとロバストなRLを統合するための体系的フレームワークを提案する。
また,デュアル・ロバスト・アクター・クリティック(DRAC)と呼ばれる実装のためのディープRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-09-13T09:34:21Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。