論文の概要: Bresa: Bio-inspired Reflexive Safe Reinforcement Learning for Contact-Rich Robotic Tasks
- arxiv url: http://arxiv.org/abs/2503.21989v1
- Date: Thu, 27 Mar 2025 21:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:12.895716
- Title: Bresa: Bio-inspired Reflexive Safe Reinforcement Learning for Contact-Rich Robotic Tasks
- Title(参考訳): Bresa: コンタクトリッチロボットタスクのためのバイオインスパイアされた反射型安全強化学習
- Authors: Heng Zhang, Gokhan Solak, Arash Ajoudani,
- Abstract要約: 本稿では,生体反射にインスパイアされたバイオインスパイアされた反射型階層型安全RL法であるBresaを提案する。
本手法は, 安全学習からタスク学習を分離し, 行動リスクを評価し, タスク解決器よりも高い頻度で動作する安全評論家ネットワークを組み込む。
以上の結果から,Bresaはベースラインよりも優れ,高レベルの計画と低レベルの実行のギャップを埋める堅牢で反射的な安全メカニズムを提供することがわかった。
- 参考スコア(独自算出の注目度): 14.311037569372369
- License:
- Abstract: Ensuring safety in reinforcement learning (RL)-based robotic systems is a critical challenge, especially in contact-rich tasks within unstructured environments. While the state-of-the-art safe RL approaches mitigate risks through safe exploration or high-level recovery mechanisms, they often overlook low-level execution safety, where reflexive responses to potential hazards are crucial. Similarly, variable impedance control (VIC) enhances safety by adjusting the robot's mechanical response, yet lacks a systematic way to adapt parameters, such as stiffness and damping throughout the task. In this paper, we propose Bresa, a Bio-inspired Reflexive Hierarchical Safe RL method inspired by biological reflexes. Our method decouples task learning from safety learning, incorporating a safety critic network that evaluates action risks and operates at a higher frequency than the task solver. Unlike existing recovery-based methods, our safety critic functions at a low-level control layer, allowing real-time intervention when unsafe conditions arise. The task-solving RL policy, running at a lower frequency, focuses on high-level planning (decision-making), while the safety critic ensures instantaneous safety corrections. We validate Bresa on multiple tasks including a contact-rich robotic task, demonstrating its reflexive ability to enhance safety, and adaptability in unforeseen dynamic environments. Our results show that Bresa outperforms the baseline, providing a robust and reflexive safety mechanism that bridges the gap between high-level planning and low-level execution. Real-world experiments and supplementary material are available at project website https://jack-sherman01.github.io/Bresa.
- Abstract(参考訳): 強化学習(RL)に基づくロボットシステムの安全性確保は、特に非構造環境におけるコンタクトリッチなタスクにおいて重要な課題である。
最先端の安全なRLアプローチは、安全な探査や高いレベルの回復メカニズムを通じてリスクを軽減するが、リスクに対する反射的な反応が不可欠である低レベルの実行安全性をしばしば見落としている。
同様に、可変インピーダンス制御(VIC)は、ロボットの機械的応答を調整することで安全性を高めるが、タスク全体を通して剛性や減衰などのパラメータを適応するための体系的な方法が欠如している。
本稿では,生体反射にインスパイアされた生体反射型階層型安全RL法であるBresaを提案する。
本手法は, 安全学習からタスク学習を分離し, 行動リスクを評価し, タスク解決器よりも高い頻度で動作する安全評論家ネットワークを組み込む。
既存のリカバリベースの手法とは異なり、安全評論家は低レベルの制御層で機能し、安全でない条件が生じた場合のリアルタイム介入を可能にします。
タスク解決RLポリシーは低い頻度で実行され、高いレベルの計画(意思決定)に焦点を当て、安全評論家は即時安全修正を保証します。
本研究では,接触に富むロボットタスクを含む複数のタスクにおいて,ブレサの安全性向上のための反射能力と,予期せぬ動的環境への適応性を示す。
以上の結果から,Bresaはベースラインよりも優れ,高レベルの計画と低レベルの実行のギャップを埋める堅牢で反射的な安全メカニズムを提供することがわかった。
実世界の実験と補助資料はプロジェクトのWebサイトhttps://jack-sherman01.github.io/Bresa.comで入手できる。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Learning to Recover for Safe Reinforcement Learning [11.891438526371495]
本稿では,安全な強化学習のための3段階アーキテクチャ,すなわちTU-Recovery Architectureを提案する。
安全評論家と回復政策は、タスクトレーニングの前に学習され、タスクトレーニングの安全性を確保するために安全制御装置を形成する。
論文 参考訳(メタデータ) (2023-09-21T09:17:38Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。