Fugu-MT 論文翻訳(概要): Safe Policy Optimization with Local Generalized Linear Function Approximations

論文の概要: Safe Policy Optimization with Local Generalized Linear Function Approximations

arxiv url: http://arxiv.org/abs/2111.04894v1
Date: Tue, 9 Nov 2021 00:47:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-10 23:19:47.081132
Title: Safe Policy Optimization with Local Generalized Linear Function Approximations
Title（参考訳）: 局所一般化線形関数近似を用いた安全政策最適化
Authors: Akifumi Wachi, Yunyue Wei, Yanan Sui
Abstract要約: 既存の安全探査法は、規則性の前提で安全を保証した。本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
参考スコア（独自算出の注目度）: 17.84511819022308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Safe exploration is a key to applying reinforcement learning (RL) in safety-critical systems. Existing safe exploration methods guaranteed safety under the assumption of regularity, and it has been difficult to apply them to large-scale real problems. We propose a novel algorithm, SPO-LF, that optimizes an agent's policy while learning the relation between a locally available feature obtained by sensors and environmental reward/safety using generalized linear function approximations. We provide theoretical guarantees on its safety and optimality. We experimentally show that our algorithm is 1) more efficient in terms of sample complexity and computational cost and 2) more applicable to large-scale problems than previous safe RL methods with theoretical guarantees, and 3) comparably sample-efficient and safer compared with existing advanced deep RL methods with safety constraints.
Abstract（参考訳）: 安全探索は、安全クリティカルシステムに強化学習(RL)を適用する鍵となる。既存の安全探査手法は, 規則性を考慮した安全を保証しており, 大規模現実問題に適用することは困難である。本稿では,センサによって得られる局所的特徴と一般線形関数近似を用いた環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。我々はその安全性と最適性を理論的に保証する。実験によって我々のアルゴリズムが 1)サンプルの複雑さと計算コストの面でより効率的である。 2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用できる。 3) 従来の深部RL法と比較すると, 試料効率と安全性は良好であった。

関連論文リスト

One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文参考訳（メタデータ） (2024-05-29T22:12:52Z)
On Safety in Safe Bayesian Optimization [5.9045432488022485]
本稿では,一般的なSafeOpt型アルゴリズムの安全性に関する3つの問題について検討する。まず、これらのアルゴリズムはガウス過程(GP)回帰に対する頻繁な境界の不確実性に批判的に依存する。第二に、ターゲット関数の再生カーネルヒルベルト空間(RKHS)ノルム上の上限を仮定する。第3に、SafeOptと派生アルゴリズムは離散的な検索空間に依存しており、高次元問題に適用することは困難である。
論文参考訳（メタデータ） (2024-03-19T17:50:32Z)
Safety Optimized Reinforcement Learning via Multi-Objective Policy Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-23T08:58:38Z)
Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms [8.789204441461678]
本稿では,安全な探査のためのメタアルゴリズムであるMASEの形で,安全な探査(GSE)問題の解を提案する。提案アルゴリズムは,グリッドワールドおよびセーフティガイムベンチマークにおける最先端アルゴリズムよりも優れた性能を実現する。
論文参考訳（メタデータ） (2023-10-05T00:47:09Z)
Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2023-07-27T15:19:45Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Safe Reinforcement Learning in Constrained Markov Decision Processes [20.175139766171277]
本稿では,マルコフ決定過程を未知の安全制約下で探索・最適化するアルゴリズムSNO-MDPを提案する。我々は、安全制約の満足度と累積報酬のほぼ最適性の両方を理論的に保証する。
論文参考訳（メタデータ） (2020-08-15T02:20:23Z)
Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文参考訳（メタデータ） (2020-07-07T15:50:50Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。