論文の概要: Stable and Safe Human-aligned Reinforcement Learning through Neural Ordinary Differential Equations
- arxiv url: http://arxiv.org/abs/2401.13148v2
- Date: Sun, 19 May 2024 09:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 23:30:28.582513
- Title: Stable and Safe Human-aligned Reinforcement Learning through Neural Ordinary Differential Equations
- Title(参考訳): ニューラル正規微分方程式による安定かつ安全な人間関係強化学習
- Authors: Liqun Zhao, Keyan Miao, Konstantinos Gatsis, Antonis Papachristodoulou,
- Abstract要約: 本稿では、このようなヒューマンアライメントタスクに対して、安全性と安定性の定義を提供する。
ニューラル常微分方程式(NODE)を用いて人やロボットの動きを予測するアルゴリズムを提案する。
シミュレーションの結果、制御されたロボットが、より少ない安全性違反で望ましい目標状態に達するのを助けることが示される。
- 参考スコア(独自算出の注目度): 1.5413714916429737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) excels in applications such as video games, but ensuring safety as well as the ability to achieve the specified goals remains challenging when using RL for real-world problems, such as human-aligned tasks where human safety is paramount. This paper provides safety and stability definitions for such human-aligned tasks, and then proposes an algorithm that leverages neural ordinary differential equations (NODEs) to predict human and robot movements and integrates the control barrier function (CBF) and control Lyapunov function (CLF) with the actor-critic method to help to maintain the safety and stability for human-aligned tasks. Simulation results show that the algorithm helps the controlled robot to reach the desired goal state with fewer safety violations and better sample efficiency compared to other methods in a human-aligned task.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, ビデオゲームなどの応用において優れているが, 人間の安全が最優先されるヒューマンアライメントタスクなど, 現実的な問題にRLを使用する場合, 安全性と特定の目標を達成する能力の確保は依然として困難である。
本稿では,人間の協調作業に対する安全性と安定性を定義し,ニューラル常微分方程式(NODE)を用いて人間とロボットの動きを予測し,制御障壁関数(CBF)とリアプノフ関数(CLF)を統合し,人間の協調作業の安全性と安定性を維持するアルゴリズムを提案する。
シミュレーションの結果, 制御されたロボットは, 人間の協調作業における他の手法と比較して, 安全性違反が少なく, サンプル効率が良く, 望ましい目標状態に達するのに役立つことがわかった。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - GenSafe: A Generalizable Safety Enhancer for Safe Reinforcement Learning Algorithms Based on Reduced Order Markov Decision Process Model [8.915288771953545]
安全強化学習(SRL)アルゴリズムにGenizable Safety enhancer(GenSafe)を導入する。
GenSafeは、当初のコスト制約から再構成されたROMDPベースの制約を解決することで、エージェントが取るアクションを洗練し、制約満足度を高める。
その結果,特に早期学習段階における安全性能の向上だけでなく,タスク性能を満足なレベルに維持できることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T09:51:30Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Reinforcement Learning for Safe Robot Control using Control Lyapunov
Barrier Functions [9.690491406456307]
強化学習(RL)は、ロボットの複雑な制御タスクを管理する際の優れた性能を示す。
本稿では、データのみに基づいて安全性と到達可能性を分析するために、制御型リアプノフバリア関数(CLBF)について検討する。
また、Lyapunov barrier actor-critic (LBAC) を提案し、データに基づく安全性と到達性条件の近似を満足するコントローラを探索した。
論文 参考訳(メタデータ) (2023-05-16T20:27:02Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Provably Safe Deep Reinforcement Learning for Robotic Manipulation in
Human Environments [8.751383865142772]
マニピュレータ上でのRLアルゴリズムの訓練および展開において,ISO認証による安全性を保証する遮蔽機構を提案する。
我々は、人間とマニピュレータの高速到達性解析を利用して、マニピュレータが人間の範囲内に入る前に完全に停止することを保証する。
論文 参考訳(メタデータ) (2022-05-12T18:51:07Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。