Fugu-MT 論文翻訳(概要): NLBAC: A Neural Ordinary Differential Equations-based Framework for Stable and Safe Reinforcement Learning

論文の概要: NLBAC: A Neural Ordinary Differential Equations-based Framework for Stable and Safe Reinforcement Learning

arxiv url: http://arxiv.org/abs/2401.13148v1
Date: Tue, 23 Jan 2024 23:50:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 15:53:20.881589
Title: NLBAC: A Neural Ordinary Differential Equations-based Framework for Stable and Safe Reinforcement Learning
Title（参考訳）: NLBAC: 安定かつ安全な強化学習のためのニューラル正規微分方程式に基づくフレームワーク
Authors: Liqun Zhao, Keyan Miao, Konstantinos Gatsis, Antonis Papachristodoulou
Abstract要約: 本稿ではまず,RLシステムの安全性と安定性について述べる。次に、ニューラル常微分方程式に基づくリアプノフ・バリア・アクター・クライブフレームワークを導入する。このフレームワークでは、拡張ラグランジアン法を用いて、RLベースのコントローラパラメータを更新する。
参考スコア（独自算出の注目度）: 1.683837623246981
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) excels in applications such as video games and robotics, but ensuring safety and stability remains challenging when using RL to control real-world systems where using model-free algorithms suffering from low sample efficiency might be prohibitive. This paper first provides safety and stability definitions for the RL system, and then introduces a Neural ordinary differential equations-based Lyapunov-Barrier Actor-Critic (NLBAC) framework that leverages Neural Ordinary Differential Equations (NODEs) to approximate system dynamics and integrates the Control Barrier Function (CBF) and Control Lyapunov Function (CLF) frameworks with the actor-critic method to assist in maintaining the safety and stability for the system. Within this framework, we employ the augmented Lagrangian method to update the RL-based controller parameters. Additionally, we introduce an extra backup controller in situations where CBF constraints for safety and the CLF constraint for stability cannot be satisfied simultaneously. Simulation results demonstrate that the framework leads the system to approach the desired state and allows fewer violations of safety constraints with better sample efficiency compared to other methods.
Abstract（参考訳）: 強化学習(rl)はビデオゲームやロボティクスのようなアプリケーションで優れているが、サンプル効率の低下に苦しむモデルフリーアルゴリズムを使用する現実のシステムを制御するためにrlを使用する場合、安全性と安定性の確保は依然として困難である。本稿では、まず、RLシステムの安全性と安定性を定義し、次に、ニューラル正規微分方程式(NODE)を利用してシステムダイナミクスを近似し、制御バリア関数(CBF)と制御リアプノフ関数(CLF)をアクタークリティカルな手法と組み合わせ、システムの安全性と安定性の維持を支援するニューラル常微分方程式に基づくリアプノフ・バリエ・アクティクス(NLBAC)フレームワークを導入する。このフレームワークでは、拡張ラグランジアン法を用いて、RLベースのコントローラパラメータを更新する。さらに、安全のためのCBF制約と安定性のためのCLF制約を同時に満たさない状況において、予備のバックアップコントローラを導入する。シミュレーションの結果,提案手法は他の手法と比較して安全性制約の違反が少なく,サンプル効率も良好であることが判明した。

関連論文リスト

Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文参考訳（メタデータ） (2025-06-03T11:17:07Z)
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-27T17:31:21Z)
GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model [8.915288771953545]
安全強化学習(SRL)アルゴリズムにGenizable Safety enhancer(GenSafe)を導入する。 GenSafeは、当初のコスト制約から再構成されたROMDPベースの制約を解決することで、エージェントが取るアクションを洗練し、制約満足度を高める。その結果,特に早期学習段階における安全性能の向上だけでなく,タスク性能を満足なレベルに維持できることが示唆された。
論文参考訳（メタデータ） (2024-06-06T09:51:30Z)
Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文参考訳（メタデータ） (2024-02-04T15:54:03Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文参考訳（メタデータ） (2023-10-19T14:22:03Z)
Provably Efficient Iterated CVaR Reinforcement Learning with Function Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文参考訳（メタデータ） (2023-07-06T08:14:54Z)
Reinforcement Learning for Safe Robot Control using Control Lyapunov Barrier Functions [9.690491406456307]
強化学習(RL)は、ロボットの複雑な制御タスクを管理する際の優れた性能を示す。本稿では、データのみに基づいて安全性と到達可能性を分析するために、制御型リアプノフバリア関数(CLBF)について検討する。また、Lyapunov barrier actor-critic (LBAC) を提案し、データに基づく安全性と到達性条件の近似を満足するコントローラを探索した。
論文参考訳（メタデータ） (2023-05-16T20:27:02Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Provably Safe Deep Reinforcement Learning for Robotic Manipulation in Human Environments [8.751383865142772]
マニピュレータ上でのRLアルゴリズムの訓練および展開において,ISO認証による安全性を保証する遮蔽機構を提案する。我々は、人間とマニピュレータの高速到達性解析を利用して、マニピュレータが人間の範囲内に入る前に完全に停止することを保証する。
論文参考訳（メタデータ） (2022-05-12T18:51:07Z)
Neural Lyapunov Redesign [36.2939747271983]
学習コントローラは、エージェントや環境に害を与えないように、何らかの安全の概念を保証しなければなりません。リアプノフ関数は非線形力学系の安定性を評価する効果的なツールである。本稿では,リアプノフ関数の推定と,安定領域を徐々に拡大する制御器の導出を交互に行う2プレーヤ協調アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-06T19:22:20Z)
Chance-Constrained Trajectory Optimization for Safe Exploration and Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-05-09T05:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。