Fugu-MT 論文翻訳(概要): Safe Exploration Incurs Nearly No Additional Sample Complexity for Reward-free RL

論文の概要: Safe Exploration Incurs Nearly No Additional Sample Complexity for Reward-free RL

arxiv url: http://arxiv.org/abs/2206.14057v1
Date: Tue, 28 Jun 2022 15:00:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-29 12:30:27.236478
Title: Safe Exploration Incurs Nearly No Additional Sample Complexity for Reward-free RL
Title（参考訳）: Reward-free RLのためのサンプル複合体がほとんどない安全な探査
Authors: Ruiquan Huang, Jing Yang, Yingbin Liang
Abstract要約: 本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案する。 Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。どちらのアルゴリズムも新たに導入されたtruncated値関数の凹凸と連続性を利用しており、制約違反をゼロにすることが保証されている。
参考スコア（独自算出の注目度）: 43.672794342894946
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the primary goal of the exploration phase in reward-free reinforcement learning (RF-RL) is to reduce the uncertainty in the estimated model with minimum number of trajectories, in practice, the agent often needs to abide by certain safety constraint at the same time. It remains unclear how such safe exploration requirement would affect the corresponding sample complexity to achieve the desired optimality of the obtained policy in planning. In this work, we make a first attempt to answer this question. In particular, we consider the scenario where a safe baseline policy is known beforehand, and propose a unified Safe reWard-frEe ExploraTion (SWEET) framework. We then particularize the SWEET framework to the tabular and the low-rank MDP settings, and develop algorithms coined Tabular-SWEET and Low-rank-SWEET, respectively. Both algorithms leverage the concavity and continuity of the newly introduced truncated value functions, and are guaranteed to achieve zero constraint violation during exploration with high probability. Furthermore, both algorithms can provably find a near-optimal policy subject to any constraint in the planning phase. Remarkably, the sample complexities under both algorithms match or even outperform the state of the art in their constraint-free counterparts up to some constant factors, proving that safety constraint hardly increases the sample complexity for RF-RL.
Abstract（参考訳）: 無報酬強化学習(RF-RL)における探索段階の第一の目的は、最小軌道数で推定されたモデルの不確実性を減少させることであるが、実際には、エージェントは特定の安全制約を同時に緩和する必要があることが多い。このような安全な探索要件が、計画において得られるポリシーの望ましい最適性を達成するために、対応するサンプル複雑さにどのように影響するかはまだ不明である。この作品において、我々はこの質問に答える最初の試みをする。特に、安全基準ポリシーが事前に知られているシナリオを考察し、統一されたSafe reWard-frEe ExploraTion(SWEET)フレームワークを提案する。次に、SWEET フレームワークを表と低ランク MDP 設定に特定し、それぞれ Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。どちらのアルゴリズムも、新しく導入された切り欠き値関数の連続性と連続性を利用しており、高い確率で探索中にゼロ制約違反を達成することが保証されている。さらに、どちらのアルゴリズムも計画段階の制約を受けるような準最適ポリシーを確実に見つけることができる。興味深いことに、両方のアルゴリズムの下のサンプルの複雑さは、一定の要素まで制約のない手法の状態をマッチさせるか、さらに上回り、安全性の制約がRF-RLのサンプルの複雑さをほとんど増加させることを証明している。

関連論文リスト

Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression [2.592761128203891]
量子ベースのアクションバリュー反復法は、期待されるコスト対ゴーの分布を学習することで、このバイアスを低減する。既存の手法では、コスト関数の組み合わせによる複雑なニューラルネットワークアーキテクチャや手動のトレードオフが必要になることが多い。本研究では、複雑なアーキテクチャを使わずに安全性を確保するために、条件付き値-アット・リスクを組み込んだリスク正規化量子化アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-08T00:22:00Z)
Risk-sensitive Markov Decision Process and Learning under General Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文参考訳（メタデータ） (2023-11-22T18:50:06Z)
Natural Actor-Critic for Robust Reinforcement Learning with Function Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文参考訳（メタデータ） (2023-07-17T22:10:20Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文参考訳（メタデータ） (2022-08-11T11:55:31Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。 P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2022-05-24T06:15:51Z)
Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文参考訳（メタデータ） (2021-07-13T21:39:21Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Learning with Safety Constraints: Sample Complexity of Reinforcement Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文参考訳（メタデータ） (2020-08-01T18:17:08Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。