論文の概要: Deep QP Safety Filter: Model-free Learning for Reachability-based Safety Filter
- arxiv url: http://arxiv.org/abs/2601.21297v1
- Date: Thu, 29 Jan 2026 05:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.99824
- Title: Deep QP Safety Filter: Model-free Learning for Reachability-based Safety Filter
- Title(参考訳): 深部QP安全フィルタ:到達可能性に基づく安全フィルタのためのモデルなし学習
- Authors: Byeongjun Kim, H. Jin Kim,
- Abstract要約: 我々は,ブラックボックス動的システムのための完全データ駆動型安全層であるDeep QP Safety Filterを紹介する。
本手法は,ハミルトン・ヤコビ(HJ)リーチビリティとモデルフリーラーニングを組み合わせることで,モデル知識を必要とせずに準プログラム(QP)安全フィルタを学習する。
- 参考スコア(独自算出の注目度): 24.58681190669229
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Deep QP Safety Filter, a fully data-driven safety layer for black-box dynamical systems. Our method learns a Quadratic-Program (QP) safety filter without model knowledge by combining Hamilton-Jacobi (HJ) reachability with model-free learning. We construct contraction-based losses for both the safety value and its derivatives, and train two neural networks accordingly. In the exact setting, the learned critic converges to the viscosity solution (and its derivative), even for non-smooth values. Across diverse dynamical systems -- even including a hybrid system -- and multiple RL tasks, Deep QP Safety Filter substantially reduces pre-convergence failures while accelerating learning toward higher returns than strong baselines, offering a principled and practical route to safe, model-free control.
- Abstract(参考訳): 我々は,ブラックボックス動的システムのための完全データ駆動型安全層であるDeep QP Safety Filterを紹介する。
本手法はハミルトン・ヤコビ(HJ)リーチビリティとモデルフリーラーニングを組み合わせることで,モデル知識のない準プログラム(QP)安全フィルタを学習する。
我々は、安全値とデリバティブの両方に対して収縮に基づく損失を構築し、それに応じて2つのニューラルネットワークを訓練する。
正確な設定では、学習された批評家は非滑らかな値であっても粘性解(およびその微分)に収束する。
ハイブリッドシステムを含む多様な力学系と複数のRLタスクを含む、Deep QP Safety Filterは、強いベースラインよりも高いリターンに向けた学習を加速しながら、収束前の障害を大幅に削減し、安全でモデルフリーな制御への原則的かつ実践的なルートを提供する。
関連論文リスト
- Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Kernel-Based Learning of Safety Barriers [0.9367224590861915]
安全クリティカルなアプリケーションにおけるAIアルゴリズムの迅速な統合は、厳格な安全基準を満たす能力に対する懸念を高めている。
従来の安全検証ツールでは、AI駆動システムのブラックボックスの性質に苦戦している。
離散時間力学を用いたブラックボックスシステムの安全性検証と合成のためのデータ駆動方式を提案する。
論文 参考訳(メタデータ) (2026-01-17T10:42:35Z) - Verifiable Safety Q-Filters via Hamilton-Jacobi Reachability and Multiplicative Q-Networks [8.042618833885168]
ハミルトン・ヤコビ到達可能性解析に基づく検証可能なモデルフリー安全フィルタを提案する。
提案手法は,4つの標準安全制御ベンチマークで検証されたモデルフリー安全証明書をうまく合成する。
論文 参考訳(メタデータ) (2025-05-27T18:12:50Z) - Continuous Knowledge-Preserving Decomposition with Adaptive Layer Selection for Few-Shot Class-Incremental Learning [73.59672160329296]
CKPD-FSCILは、事前訓練された重量の未使用容量を解放する統合フレームワークである。
本手法は,適応性と知識保持の両面で,最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-01-09T07:18:48Z) - Q-learning-based Model-free Safety Filter [6.391687991642366]
本稿では, シンプルな, プラグイン・アンド・プレイ, 効果的なモデルフリーな安全フィルタ学習フレームワークを提案する。
我々は、新しい報酬定式化を導入し、Q-ラーニングを用いてQ-値関数を学習し、任意のタスク固有の名目ポリシーを保護します。
論文 参考訳(メタデータ) (2024-11-29T16:16:59Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Safety-aware Policy Optimisation for Autonomous Racing [17.10371721305536]
ハミルトン・ヤコビ(HJ)到達可能性理論を制約付きマルコフ決定過程(CMDP)フレームワークに導入する。
我々は,HJの安全性を視覚的文脈で直接学習できることを実証した。
我々は、最近リリースされた高忠実な自律走行環境であるSafety GymやLearning-to-Race (L2R)など、いくつかのベンチマークタスクにおいて、本手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-14T20:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。