Fugu-MT 論文翻訳(概要): Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning

論文の概要: Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2402.15893v3
Date: Sun, 24 Mar 2024 19:34:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 01:25:45.982597
Title: Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning
Title（参考訳）: 強化学習における政策と未知の安全制約の同時学習
Authors: Lunet Yifru, Ali Baheri,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
参考スコア（独自算出の注目度）: 4.14360329494344
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) has revolutionized decision-making across a wide range of domains over the past few decades. Yet, deploying RL policies in real-world scenarios presents the crucial challenge of ensuring safety. Traditional safe RL approaches have predominantly focused on incorporating predefined safety constraints into the policy learning process. However, this reliance on predefined safety constraints poses limitations in dynamic and unpredictable real-world settings where such constraints may not be available or sufficiently adaptable. Bridging this gap, we propose a novel approach that concurrently learns a safe RL control policy and identifies the unknown safety constraint parameters of a given environment. Initializing with a parametric signal temporal logic (pSTL) safety specification and a small initial labeled dataset, we frame the problem as a bilevel optimization task, intricately integrating constrained policy optimization, using a Lagrangian-variant of the twin delayed deep deterministic policy gradient (TD3) algorithm, with Bayesian optimization for optimizing parameters for the given pSTL safety specification. Through experimentation in comprehensive case studies, we validate the efficacy of this approach across varying forms of environmental constraints, consistently yielding safe RL policies with high returns. Furthermore, our findings indicate successful learning of STL safety constraint parameters, exhibiting a high degree of conformity with true environmental safety constraints. The performance of our model closely mirrors that of an ideal scenario that possesses complete prior knowledge of safety constraints, demonstrating its proficiency in accurately identifying environmental safety constraints and learning safe policies that adhere to those constraints.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。しかし、この事前定義された安全制約への依存は、そのような制約が利用できない、あるいは十分に適応できないような、動的で予測不可能な現実世界の設定に制限をもたらす。このギャップを埋めて、安全なRL制御ポリシーを同時に学習し、与えられた環境の未知の安全制約パラメータを識別する新しいアプローチを提案する。パラメトリック信号時間論理(pSTL)の安全性仕様と小さな初期ラベル付きデータセットを初期化して、与えられたpSTLの安全性仕様のパラメータを最適化するためのベイズ最適化を用いて、2つの遅延深い決定性ポリシー勾配(TD3)アルゴリズムのラグランジアン変種を用いて、制約付きポリシー最適化を複雑に統合する二段階最適化タスクとする。包括的ケーススタディにおける実験を通じて, 環境制約の様々な形態にまたがるこのアプローチの有効性を検証する。さらに, 本研究は, STLの安全性制約パラメータの学習に成功し, 真の環境安全制約と高い適合性を示した。本モデルの性能は, 安全制約の事前知識を十分に備えた理想的なシナリオを忠実に反映し, 環境安全制約を正確に識別し, それらの制約に準拠した安全ポリシーを学習する能力を示す。

関連論文リスト

BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。 BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文参考訳（メタデータ） (2026-02-23T18:19:46Z)
Vulnerability Analysis of Safe Reinforcement Learning via Inverse Constrained Reinforcement Learning [1.4707788677208018]
セーフなRLポリシーの脆弱性を明らかにするための敵攻撃フレームワークを提案する。我々のフレームワークは制約モデルとサロゲート(ラーナー)ポリシーを学習し、勾配に基づく攻撃の最適化を可能にする。
論文参考訳（メタデータ） (2026-02-18T15:43:36Z)
Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T22:03:35Z)
Constrained Policy Optimization via Sampling-Based Weight-Space Projection [3.736063711613611]
安全クリティカルな学習は、安全な運用体制を離れることなく、パフォーマンスを向上させる政策を必要とする。モデルパラメータが未知のロールアウトに基づく安全制約を満たすような制約付きポリシー学習について検討する。制約関数への勾配アクセスを必要とせずにパラメータ空間内で直接安全を強制する,サンプリングベースの重み空間投影法であるSCPOを提案する。
論文参考訳（メタデータ） (2025-12-15T19:00:01Z)
Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation [25.552241659930445]
セーフ強化学習(Safe RL)の主な側面は、次のポリシーの制約条件を推定することである。既存の推定方法は無限水平割引利得関数に依存している。深部安全RLにおける有限水平非分散制約の第一推定法を提案する。
論文参考訳（メタデータ） (2024-12-15T10:05:23Z)
Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文参考訳（メタデータ） (2024-12-11T22:00:07Z)
SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文参考訳（メタデータ） (2023-11-01T22:12:50Z)
Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning [33.988698754176646]
本稿では,2つのモジュールからなる条件付き制約付き政策最適化(CCPO)フレームワークを紹介する。実験の結果,CCPOは安全性とタスク性能の点で基準線を上回っていることがわかった。これにより、我々のアプローチは実世界の動的アプリケーションに適している。
論文参考訳（メタデータ） (2023-10-05T17:39:02Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2022-09-29T20:49:25Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文参考訳（メタデータ） (2022-07-04T11:43:23Z)
Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文参考訳（メタデータ） (2021-07-29T13:08:15Z)
Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文参考訳（メタデータ） (2021-02-18T05:11:41Z)
Context-Aware Safe Reinforcement Learning for Non-Stationary Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-01-02T23:52:22Z)
Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文参考訳（メタデータ） (2020-02-26T00:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。