論文の概要: Meta SAC-Lag: Towards Deployable Safe Reinforcement Learning via MetaGradient-based Hyperparameter Tuning
- arxiv url: http://arxiv.org/abs/2408.07962v1
- Date: Thu, 15 Aug 2024 06:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:46:15.998875
- Title: Meta SAC-Lag: Towards Deployable Safe Reinforcement Learning via MetaGradient-based Hyperparameter Tuning
- Title(参考訳): Meta SAC-Lag: MetaGradientベースのハイパーパラメータチューニングによるデプロイ可能な安全な強化学習を目指して
- Authors: Homayoun Honari, Amir Mehdi Soufi Enayati, Mehran Ghafarian Tamizi, Homayoun Najjaran,
- Abstract要約: セーフ強化学習(Safe Reinforcement Learning, セーフRL)は、トライアル・アンド・エラーベースの手法の最もよく研究されているサブカテゴリの1つである。
我々はメタソフトアクター・クリティカル・ラグランジアン(Meta SAC-Lag)と呼ばれる統一ラグランジアンベースのモデルフリーアーキテクチャを提案する。
その結果,安全閾値の比較的速い収束率により,エージェントが安全性能を確実に調整できることが示唆された。
- 参考スコア(独自算出の注目度): 2.7898966850590625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe Reinforcement Learning (Safe RL) is one of the prevalently studied subcategories of trial-and-error-based methods with the intention to be deployed on real-world systems. In safe RL, the goal is to maximize reward performance while minimizing constraints, often achieved by setting bounds on constraint functions and utilizing the Lagrangian method. However, deploying Lagrangian-based safe RL in real-world scenarios is challenging due to the necessity of threshold fine-tuning, as imprecise adjustments may lead to suboptimal policy convergence. To mitigate this challenge, we propose a unified Lagrangian-based model-free architecture called Meta Soft Actor-Critic Lagrangian (Meta SAC-Lag). Meta SAC-Lag uses meta-gradient optimization to automatically update the safety-related hyperparameters. The proposed method is designed to address safe exploration and threshold adjustment with minimal hyperparameter tuning requirement. In our pipeline, the inner parameters are updated through the conventional formulation and the hyperparameters are adjusted using the meta-objectives which are defined based on the updated parameters. Our results show that the agent can reliably adjust the safety performance due to the relatively fast convergence rate of the safety threshold. We evaluate the performance of Meta SAC-Lag in five simulated environments against Lagrangian baselines, and the results demonstrate its capability to create synergy between parameters, yielding better or competitive results. Furthermore, we conduct a real-world experiment involving a robotic arm tasked with pouring coffee into a cup without spillage. Meta SAC-Lag is successfully trained to execute the task, while minimizing effort constraints.
- Abstract(参考訳): セーフ強化学習 (Safe Reinforcement Learning, セーフRL) は、現実世界のシステムに展開する目的で、試行錯誤に基づく手法のサブカテゴリとして広く研究されている。
安全なRLでは、制約を最小化しながら報酬性能を最大化し、しばしば制約関数に境界を設定し、ラグランジアン法を利用する。
しかしながら、ラグランジアンベースの安全なRLを現実のシナリオに配置することは、不正確な調整が最適政策の収束につながる可能性があるため、しきい値の微調整が必要であるため困難である。
この課題を軽減するために,メタソフトアクター・クリティカル・ラグランジアン(Meta SAC-Lag)と呼ばれる,ラグランジアンをベースとしたモデルフリーアーキテクチャを提案する。
Meta SAC-Lagは、メタグラディエント最適化を使用して、安全に関連するハイパーパラメータを自動的に更新する。
提案手法は,最小限のハイパーパラメータチューニング条件で安全な探索としきい値調整を行うように設計されている。
我々のパイプラインでは、内部パラメータを従来の定式化によって更新し、更新されたパラメータに基づいて定義されたメタオブジェクトを用いてハイパーパラメータを調整します。
その結果,安全閾値の比較的速い収束率により,エージェントが安全性能を確実に調整できることが示唆された。
我々は,5つのシミュレーション環境におけるMeta SAC-Lagの性能をラグランジアンベースラインに対して評価し,パラメータ間の相乗効果を生かし,より良い,あるいは競争的な結果が得られることを示した。
さらに,コーヒーをこぼすことなくカップに注ぐロボットアームを用いた実世界の実験を行った。
Meta SAC-Lagは、作業の制約を最小限にしながら、タスクを実行するためにうまくトレーニングされている。
関連論文リスト
- Constrained Meta Agnostic Reinforcement Learning [2.3749120526936465]
制約モデル非依存メタラーニング(C-MAML)
C-MAMLは、トレーニングフェーズ中にタスク固有の制約を直接メタアルゴリズムフレームワークに組み込むことで、迅速かつ効率的なタスク適応を可能にする。
C-MAMLは, 動的環境下での実用性と頑健さを強調し, 複雑度の異なる車輪付きロボットタスクを用いたシミュレーションロコモーションにおける有効性を示す。
論文 参考訳(メタデータ) (2024-06-20T07:11:27Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Model-based Chance-Constrained Reinforcement Learning via Separated
Proportional-Integral Lagrangian [5.686699342802045]
本研究では、不確実性の下でRL安全性を高めるために、分離された比例積分ラグランジアンアルゴリズムを提案する。
本稿では,自動車追従シミュレーションにおいて,RLポリシーの振動と保守性を低減できることを示す。
論文 参考訳(メタデータ) (2021-08-26T07:34:14Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。