論文の概要: NLBAC: A Neural Ordinary Differential Equations-based Framework for
Stable and Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.13148v1
- Date: Tue, 23 Jan 2024 23:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:53:20.881589
- Title: NLBAC: A Neural Ordinary Differential Equations-based Framework for
Stable and Safe Reinforcement Learning
- Title(参考訳): NLBAC: 安定かつ安全な強化学習のためのニューラル正規微分方程式に基づくフレームワーク
- Authors: Liqun Zhao, Keyan Miao, Konstantinos Gatsis, Antonis Papachristodoulou
- Abstract要約: 本稿ではまず,RLシステムの安全性と安定性について述べる。
次に、ニューラル常微分方程式に基づくリアプノフ・バリア・アクター・クライブフレームワークを導入する。
このフレームワークでは、拡張ラグランジアン法を用いて、RLベースのコントローラパラメータを更新する。
- 参考スコア(独自算出の注目度): 1.683837623246981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) excels in applications such as video games and
robotics, but ensuring safety and stability remains challenging when using RL
to control real-world systems where using model-free algorithms suffering from
low sample efficiency might be prohibitive. This paper first provides safety
and stability definitions for the RL system, and then introduces a Neural
ordinary differential equations-based Lyapunov-Barrier Actor-Critic (NLBAC)
framework that leverages Neural Ordinary Differential Equations (NODEs) to
approximate system dynamics and integrates the Control Barrier Function (CBF)
and Control Lyapunov Function (CLF) frameworks with the actor-critic method to
assist in maintaining the safety and stability for the system. Within this
framework, we employ the augmented Lagrangian method to update the RL-based
controller parameters. Additionally, we introduce an extra backup controller in
situations where CBF constraints for safety and the CLF constraint for
stability cannot be satisfied simultaneously. Simulation results demonstrate
that the framework leads the system to approach the desired state and allows
fewer violations of safety constraints with better sample efficiency compared
to other methods.
- Abstract(参考訳): 強化学習(rl)はビデオゲームやロボティクスのようなアプリケーションで優れているが、サンプル効率の低下に苦しむモデルフリーアルゴリズムを使用する現実のシステムを制御するためにrlを使用する場合、安全性と安定性の確保は依然として困難である。
本稿では、まず、RLシステムの安全性と安定性を定義し、次に、ニューラル正規微分方程式(NODE)を利用してシステムダイナミクスを近似し、制御バリア関数(CBF)と制御リアプノフ関数(CLF)をアクタークリティカルな手法と組み合わせ、システムの安全性と安定性の維持を支援するニューラル常微分方程式に基づくリアプノフ・バリエ・アクティクス(NLBAC)フレームワークを導入する。
このフレームワークでは、拡張ラグランジアン法を用いて、RLベースのコントローラパラメータを更新する。
さらに、安全のためのCBF制約と安定性のためのCLF制約を同時に満たさない状況において、予備のバックアップコントローラを導入する。
シミュレーションの結果,提案手法は他の手法と比較して安全性制約の違反が少なく,サンプル効率も良好であることが判明した。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model [8.915288771953545]
安全強化学習(SRL)アルゴリズムにGenizable Safety enhancer(GenSafe)を導入する。
GenSafeは、当初のコスト制約から再構成されたROMDPベースの制約を解決することで、エージェントが取るアクションを洗練し、制約満足度を高める。
その結果,特に早期学習段階における安全性能の向上だけでなく,タスク性能を満足なレベルに維持できることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T09:51:30Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Reinforcement Learning for Safe Robot Control using Control Lyapunov
Barrier Functions [9.690491406456307]
強化学習(RL)は、ロボットの複雑な制御タスクを管理する際の優れた性能を示す。
本稿では、データのみに基づいて安全性と到達可能性を分析するために、制御型リアプノフバリア関数(CLBF)について検討する。
また、Lyapunov barrier actor-critic (LBAC) を提案し、データに基づく安全性と到達性条件の近似を満足するコントローラを探索した。
論文 参考訳(メタデータ) (2023-05-16T20:27:02Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Provably Safe Deep Reinforcement Learning for Robotic Manipulation in
Human Environments [8.751383865142772]
マニピュレータ上でのRLアルゴリズムの訓練および展開において,ISO認証による安全性を保証する遮蔽機構を提案する。
我々は、人間とマニピュレータの高速到達性解析を利用して、マニピュレータが人間の範囲内に入る前に完全に停止することを保証する。
論文 参考訳(メタデータ) (2022-05-12T18:51:07Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。