論文の概要: Safe Inverse Reinforcement Learning via Control Barrier Function
- arxiv url: http://arxiv.org/abs/2212.02753v1
- Date: Tue, 6 Dec 2022 05:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:16:18.547683
- Title: Safe Inverse Reinforcement Learning via Control Barrier Function
- Title(参考訳): 制御障壁関数による安全逆強化学習
- Authors: Yue Yang, Letian Chen, Matthew Gombolay
- Abstract要約: 実証から学ぶ(LfD)は、ロボットが新しいタスクを実行できる強力な方法である。
現代のLfD技術、例えば逆強化学習(IRL)における安全性の問題
本稿では、制御バリア機能(CBF)を活用してIRLポリシーの安全性を高める安全なIRLフレームワークCBFIRLを提案する。
- 参考スコア(独自算出の注目度): 7.851360909974311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from Demonstration (LfD) is a powerful method for enabling robots to
perform novel tasks as it is often more tractable for a non-roboticist end-user
to demonstrate the desired skill and for the robot to efficiently learn from
the associated data than for a human to engineer a reward function for the
robot to learn the skill via reinforcement learning (RL). Safety issues arise
in modern LfD techniques, e.g., Inverse Reinforcement Learning (IRL), just as
they do for RL; yet, safe learning in LfD has received little attention. In the
context of agile robots, safety is especially vital due to the possibility of
robot-environment collision, robot-human collision, and damage to the robot. In
this paper, we propose a safe IRL framework, CBFIRL, that leverages the Control
Barrier Function (CBF) to enhance the safety of the IRL policy. The core idea
of CBFIRL is to combine a loss function inspired by CBF requirements with the
objective in an IRL method, both of which are jointly optimized via gradient
descent. In the experiments, we show our framework performs safer compared to
IRL methods without CBF, that is $\sim15\%$ and $\sim20\%$ improvement for two
levels of difficulty of a 2D racecar domain and $\sim 50\%$ improvement for a
3D drone domain.
- Abstract(参考訳): 実演からの学習(lfd)は、非ロボット主義者のエンドユーザが所望のスキルを実演することができ、ロボットが関連するデータから効率的に学習できるため、ロボットが強化学習(rl)によってそのスキルを学ぶための報奨機能を人間に設計するよりも、ロボットが新しいタスクを実行するための強力な方法である。
現代のLfD技術では、例えば逆強化学習(Inverse Reinforcement Learning、IRL)のように安全上の問題が生じるが、LfDにおける安全な学習はほとんど注目されていない。
アジャイルロボットの文脈では、ロボットと環境の衝突、ロボットと人間の衝突、ロボットの損傷の可能性により、特に安全が不可欠である。
本稿では、制御バリア機能(CBF)を活用してIRLポリシーの安全性を高める安全IRLフレームワークCBFIRLを提案する。
CBFIRLの中核となる考え方は、CBF要求にインスパイアされた損失関数とIRL法の目的を結びつけることである。
実験では,2Dレースカードメインの難易度2レベルに対する$\sim15\%$と$\sim20\%$の改善,および3Dドローンドメインに対する$\sim 50\%$の改善であるCBFのないIRLメソッドと比較して,我々のフレームワークがより安全であることを示す。
関連論文リスト
- ABNet: Attention BarrierNet for Safe and Scalable Robot Learning [58.4951884593569]
バリアベースの手法は、安全なロボット学習における主要なアプローチの1つである。
本稿では,より大規模な基本安全モデルを段階的に構築するスケーラブルなAttention BarrierNet(ABNet)を提案する。
2次元ロボット障害物回避、安全なロボット操作、視覚に基づくエンドツーエンド自動運転におけるABNetの強みを実証する。
論文 参考訳(メタデータ) (2024-06-18T19:37:44Z) - Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion [13.647294304606316]
本稿では,四足歩行ロボットのための学習ベースの制御フレームワークであるAgile But Safe(ABS)を紹介する。
ABSには障害の中でアジャイルモータースキルを実行するためのアジャイルポリシと、障害を防止するためのリカバリポリシが含まれています。
トレーニングプロセスには、アジャイルポリシ、リーチアビドバリューネットワーク、リカバリポリシ、排他的表現ネットワークの学習が含まれる。
論文 参考訳(メタデータ) (2024-01-31T03:58:28Z) - Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:22:16Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Safe Reinforcement Learning Using Black-Box Reachability Analysis [20.875010584486812]
強化学習(Reinforcement Learning, RL)は、不確実な環境下でのロボットの動き計画と制御を高度に行うことができる。
広範な展開を正当化するためには、ロボットは性能を犠牲にすることなく安全上の制約を尊重しなければならない。
我々は3つの主要コンポーネントを持つブラックボックス到達可能性に基づく安全層(BRSL)を提案する。
論文 参考訳(メタデータ) (2022-04-15T10:51:09Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。