論文の概要: Guided by Guardrails: Control Barrier Functions as Safety Instructors for Robotic Learning
- arxiv url: http://arxiv.org/abs/2505.18858v1
- Date: Sat, 24 May 2025 20:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.700247
- Title: Guided by Guardrails: Control Barrier Functions as Safety Instructors for Robotic Learning
- Title(参考訳): ガードレールガイド:ロボット学習の安全インストラクタとしての制御バリア機能
- Authors: Maeva Guerrier, Karthik Soma, Hassan Fouad, Giovanni Beltrame,
- Abstract要約: 安全は、私たちの日常生活における学習ベースのロボットシステムの普及を妨げる主要な障害である。
本研究では、エピソード終了のない連続的な負の報酬を適用することによって、これらの時間的効果をシミュレートする新しいアプローチを提案する。
CBFに基づく3つのアプローチを提案し、それぞれが従来のRL法を制御バリア関数と統合し、エージェントに安全な振る舞いの学習を指導する。
- 参考スコア(独自算出の注目度): 10.797457293404468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety stands as the primary obstacle preventing the widespread adoption of learning-based robotic systems in our daily lives. While reinforcement learning (RL) shows promise as an effective robot learning paradigm, conventional RL frameworks often model safety by using single scalar negative rewards with immediate episode termination, failing to capture the temporal consequences of unsafe actions (e.g., sustained collision damage). In this work, we introduce a novel approach that simulates these temporal effects by applying continuous negative rewards without episode termination. Our experiments reveal that standard RL methods struggle with this model, as the accumulated negative values in unsafe zones create learning barriers. To address this challenge, we demonstrate how Control Barrier Functions (CBFs), with their proven safety guarantees, effectively help robots avoid catastrophic regions while enhancing learning outcomes. We present three CBF-based approaches, each integrating traditional RL methods with Control Barrier Functions, guiding the agent to learn safe behavior. Our empirical analysis, conducted in both simulated environments and real-world settings using a four-wheel differential drive robot, explores the possibilities of employing these approaches for safe robotic learning.
- Abstract(参考訳): 安全は、私たちの日常生活における学習ベースのロボットシステムの普及を妨げる主要な障害である。
強化学習(RL)は効果的なロボット学習パラダイムとして有望であるが、従来のRLフレームワークは、即時エピソード終了による単一スカラー負の報酬を用いて安全性をモデル化し、安全でない行動(例えば、持続的な衝突損傷)の時間的結果のキャプチャに失敗することが多い。
本研究では、エピソード終了のない連続的な負の報酬を適用することによって、これらの時間的効果をシミュレートする新しいアプローチを提案する。
実験の結果,安全でない領域における負の蓄積が学習障壁を生じさせるため,標準RL法はこのモデルに苦慮していることが明らかとなった。
この課題に対処するために、制御バリア関数(CBF)が、その証明された安全性を保証することによって、ロボットが破滅的な領域を避けながら学習結果を向上するのを効果的に支援する方法を実証する。
CBFに基づく3つのアプローチを提案し、それぞれが従来のRL法を制御バリア関数と統合し、エージェントに安全な振る舞いの学習を指導する。
4輪ディファレンシャルドライブロボットを用いたシミュレーション環境と実環境の両方で実施した実証分析では,これらの手法を安全なロボット学習に適用する可能性について検討した。
関連論文リスト
- World Models for Anomaly Detection during Model-Based Reinforcement Learning Inference [3.591122855617648]
学習ベースのコントローラは、安全性と信頼性に関する懸念から、現実世界のアプリケーションから意図的に排除されることが多い。
モデルベース強化学習における最先端の世界モデルがどのようにトレーニングフェーズを超えて活用され、デプロイされたポリシーが十分に親しみのある状態空間の領域内でのみ動作するかを検討する。
論文 参考訳(メタデータ) (2025-03-04T12:25:01Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safety-Driven Deep Reinforcement Learning Framework for Cobots: A Sim2Real Approach [1.0488553716155147]
本研究では,深部強化学習(DRL)におけるロボットシミュレーションに安全性制約を取り入れた新しい手法を提案する。
このフレームワークは、速度制約のような安全要件の特定の部分をDRLモデルに直接統合する。
提案手法は,テストシナリオの平均成功率を16.5%向上させる。
論文 参考訳(メタデータ) (2024-07-02T12:56:17Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Reinforcement Learning for Safe Robot Control using Control Lyapunov
Barrier Functions [9.690491406456307]
強化学習(RL)は、ロボットの複雑な制御タスクを管理する際の優れた性能を示す。
本稿では、データのみに基づいて安全性と到達可能性を分析するために、制御型リアプノフバリア関数(CLBF)について検討する。
また、Lyapunov barrier actor-critic (LBAC) を提案し、データに基づく安全性と到達性条件の近似を満足するコントローラを探索した。
論文 参考訳(メタデータ) (2023-05-16T20:27:02Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Safe Reinforcement Learning Using Black-Box Reachability Analysis [20.875010584486812]
強化学習(Reinforcement Learning, RL)は、不確実な環境下でのロボットの動き計画と制御を高度に行うことができる。
広範な展開を正当化するためには、ロボットは性能を犠牲にすることなく安全上の制約を尊重しなければならない。
我々は3つの主要コンポーネントを持つブラックボックス到達可能性に基づく安全層(BRSL)を提案する。
論文 参考訳(メタデータ) (2022-04-15T10:51:09Z) - Safe Model-Based Reinforcement Learning Using Robust Control Barrier
Functions [43.713259595810854]
安全に対処する一般的なアプローチとして、安全層が追加され、RLアクションを安全な一連のアクションに投影する。
本稿では,モデルベースRLフレームワークにおけるロバスト制御バリア機能層としての安全性について述べる。
論文 参考訳(メタデータ) (2021-10-11T17:00:45Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。