論文の概要: Q-learning-based Model-free Safety Filter
- arxiv url: http://arxiv.org/abs/2411.19809v1
- Date: Fri, 29 Nov 2024 16:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:18:46.407049
- Title: Q-learning-based Model-free Safety Filter
- Title(参考訳): Qラーニングに基づくモデルフリー安全フィルタ
- Authors: Guo Ning Sue, Yogita Choudhary, Richard Desatnik, Carmel Majidi, John Dolan, Guanya Shi,
- Abstract要約: 本稿では, シンプルな, プラグイン・アンド・プレイ, 効果的なモデルフリーな安全フィルタ学習フレームワークを提案する。
我々は、新しい報酬定式化を導入し、Q-ラーニングを用いてQ-値関数を学習し、任意のタスク固有の名目ポリシーを保護します。
- 参考スコア(独自算出の注目度): 6.391687991642366
- License:
- Abstract: Ensuring safety via safety filters in real-world robotics presents significant challenges, particularly when the system dynamics is complex or unavailable. To handle this issue, learning-based safety filters recently gained popularity, which can be classified as model-based and model-free methods. Existing model-based approaches requires various assumptions on system model (e.g., control-affine), which limits their application in complex systems, and existing model-free approaches need substantial modifications to standard RL algorithms and lack versatility. This paper proposes a simple, plugin-and-play, and effective model-free safety filter learning framework. We introduce a novel reward formulation and use Q-learning to learn Q-value functions to safeguard arbitrary task specific nominal policies via filtering out their potentially unsafe actions. The threshold used in the filtering process is supported by our theoretical analysis. Due to its model-free nature and simplicity, our framework can be seamlessly integrated with various RL algorithms. We validate the proposed approach through simulations on double integrator and Dubin's car systems and demonstrate its effectiveness in real-world experiments with a soft robotic limb.
- Abstract(参考訳): 現実世界のロボット工学における安全フィルタによる安全性の確保は、特にシステムダイナミクスが複雑で、あるいは利用できない場合、重大な課題となる。
この問題に対処するために、学習ベースの安全フィルタが最近人気となり、モデルベースおよびモデルフリーの方法に分類される。
既存のモデルベースアプローチでは、複雑なシステムでの応用を制限するシステムモデル(例えば、制御アフィン)に様々な仮定が必要であり、既存のモデルフリーアプローチでは標準のRLアルゴリズムに大幅な修正が必要であり、汎用性が欠如している。
本稿では, シンプルな, プラグイン・アンド・プレイ, 効果的なモデルフリーな安全フィルタ学習フレームワークを提案する。
我々は、新しい報酬定式化を導入し、Q-ラーニングを用いてQ-値関数を学習し、潜在的に安全でないアクションをフィルタリングすることで、任意のタスク固有の名目ポリシーを保護します。
フィルタリングプロセスで用いられる閾値は、我々の理論解析によって支持される。
モデルのない性質と単純さのため、我々のフレームワークは様々なRLアルゴリズムとシームレスに統合できる。
提案手法は, ダブルインテグレータとドゥビンの自動車システムのシミュレーションにより検証し, ソフトロボットを用いた実世界実験での有効性を実証した。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Hierarchical Framework for Interpretable and Probabilistic Model-Based
Safe Reinforcement Learning [1.3678669691302048]
本稿では,安全クリティカルシステムにおける深層強化学習の新たなアプローチを提案する。
確率論的モデリングと強化学習の利点と、解釈可能性の利点を兼ね備えている。
論文 参考訳(メタデータ) (2023-10-28T20:30:57Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Efficient Preference-Based Reinforcement Learning Using Learned Dynamics
Models [13.077993395762185]
優先度に基づく強化学習(PbRL)は、ロボットが個人の好みに基づいてタスクを実行することを学習できるようにする。
PbRLを実行する際に学習力学モデルを使用することの利点と課題について検討する。
論文 参考訳(メタデータ) (2023-01-11T22:22:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Bridging Model-based Safety and Model-free Reinforcement Learning
through System Identification of Low Dimensional Linear Models [16.511440197186918]
モデルベース安全性とモデルフリー強化学習を組み合わせた新しい手法を提案する。
閉ループ系の力学を捉えるためには,低次元の力学モデルが十分であることを示す。
検出された線形モデルは、安全クリティカルな最適制御フレームワークによる保証を提供することができることを示す。
論文 参考訳(メタデータ) (2022-05-11T22:03:18Z) - Safety-aware Policy Optimisation for Autonomous Racing [17.10371721305536]
ハミルトン・ヤコビ(HJ)到達可能性理論を制約付きマルコフ決定過程(CMDP)フレームワークに導入する。
我々は,HJの安全性を視覚的文脈で直接学習できることを実証した。
我々は、最近リリースされた高忠実な自律走行環境であるSafety GymやLearning-to-Race (L2R)など、いくつかのベンチマークタスクにおいて、本手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-14T20:15:45Z) - Partitioned Active Learning for Heterogeneous Systems [5.331649110169476]
本稿では,pgp(partitioned gp)モデルに基づく分断アクティブラーニング戦略を提案する。
グローバル検索は、アクティブラーニングの探索の側面を加速する。
ローカル検索は、ローカルGPモデルによって誘導されるアクティブ学習基準を利用する。
論文 参考訳(メタデータ) (2021-05-14T02:05:31Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。