論文の概要: Safe Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.13446v1
- Date: Fri, 26 Feb 2021 13:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 18:13:34.977011
- Title: Safe Distributional Reinforcement Learning
- Title(参考訳): 安全な分布強化学習
- Authors: Jianyi Zhang, Paul Weng
- Abstract要約: 強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
分布 RL の設定において制約付き RL の定式化で定式化する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
- 参考スコア(独自算出の注目度): 19.607668635077495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety in reinforcement learning (RL) is a key property in both training and
execution in many domains such as autonomous driving or finance. In this paper,
we formalize it with a constrained RL formulation in the distributional RL
setting. Our general model accepts various definitions of safety(e.g., bounds
on expected performance, CVaR, variance, or probability of reaching bad
states). To ensure safety during learning, we extend a safe policy optimization
method to solve our problem. The distributional RL perspective leads to a more
efficient algorithm while additionally catering for natural safe constraints.
We empirically validate our propositions on artificial and real domains against
appropriate state-of-the-art safe RL algorithms.
- Abstract(参考訳): 強化学習における安全性(RL)は、自動運転や金融などの多くの分野での訓練と実行の両方において重要な特性です。
本稿では,分布RL設定における制約付きRL定式化で定式化する。
我々の一般的なモデルは、様々な安全性の定義を受け入れている(例えば、期待される性能、CVaR、分散、悪い状態に達する確率など)。
学習中の安全性を確保するため,安全政策最適化手法を拡張して課題を解決する。
分布的RLパースペクティブは、より効率的なアルゴリズムを導き、さらに自然の安全な制約に対処する。
私たちは、人工および現実ドメインに関する提案を、最新の安全RLアルゴリズムに対して実証的に検証します。
関連論文リスト
- Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。
本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:58:38Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe
Autonomous Driving [12.925039760573092]
我々はSafeRL-Kitをリリースし、自動運転タスクのための安全なRLメソッドをベンチマークする。
SafeRL-Kitには、セーフ・レイヤ、リカバリ・RL、オフ・ポリティ・ラグランジアン・メソッド、Fasible Actor-Criticなど、ゼロ制約違反タスクに特化した最新のアルゴリズムがいくつか含まれている。
我々は、SafeRL-Kitで上記のアルゴリズムの比較評価を行い、安全自動運転の有効性について光を当てた。
論文 参考訳(メタデータ) (2022-06-17T03:23:51Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。