論文の概要: Safe Guaranteed Dynamics Exploration with Probabilistic Models
- arxiv url: http://arxiv.org/abs/2509.16650v1
- Date: Sat, 20 Sep 2025 11:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.906619
- Title: Safe Guaranteed Dynamics Exploration with Probabilistic Models
- Title(参考訳): 確率モデルによる安全保証されたダイナミクス探索
- Authors: Manish Prajapat, Johannes Köhler, Melanie N. Zeilinger, Andreas Krause,
- Abstract要約: 我々は,安全政策の空間における十分な探索を通して,最大安全力学学習の概念を導入する。
我々は、動的に連続的にオンライン学習することを保証する、$textitpessimistically$safeフレームワークを提案する。
自動運転車レースやドローンナビゲーションといった課題領域におけるアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 34.655934881761446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring both optimality and safety is critical for the real-world deployment of agents, but becomes particularly challenging when the system dynamics are unknown. To address this problem, we introduce a notion of maximum safe dynamics learning via sufficient exploration in the space of safe policies. We propose a $\textit{pessimistically}$ safe framework that $\textit{optimistically}$ explores informative states and, despite not reaching them due to model uncertainty, ensures continuous online learning of dynamics. The framework achieves first-of-its-kind results: learning the dynamics model sufficiently $-$ up to an arbitrary small tolerance (subject to noise) $-$ in a finite time, while ensuring provably safe operation throughout with high probability and without requiring resets. Building on this, we propose an algorithm to maximize rewards while learning the dynamics $\textit{only to the extent needed}$ to achieve close-to-optimal performance. Unlike typical reinforcement learning (RL) methods, our approach operates online in a non-episodic setting and ensures safety throughout the learning process. We demonstrate the effectiveness of our approach in challenging domains such as autonomous car racing and drone navigation under aerodynamic effects $-$ scenarios where safety is critical and accurate modeling is difficult.
- Abstract(参考訳): エージェントの実際の展開には最適性と安全性の確保が不可欠だが、システムのダイナミクスが不明な場合には特に困難になる。
この問題に対処するために,安全政策の空間における十分な探索を通して,最大安全力学学習の概念を導入する。
我々は、$\textit{pessimistically}$safe frameworkを提案し、$\textit{optimistically}$は、情報的状態を探究し、モデルの不確実性のため到達しなかったにもかかわらず、ダイナミックスの継続的なオンライン学習を保証する。
このフレームワークは第一種の結果を達成している: ダイナミックスモデルを有限時間で任意の小さな許容値(雑音に代えて)まで十分に$-$で学習し、高い確率とリセットを必要とせず、確実に安全な操作を保証する。
そこで本研究では,報酬を最大化するためのアルゴリズムを提案し,性能を最適にするために$\textit{only to the extent}$を学習する。
一般的な強化学習(RL)法とは異なり,本手法は非エポゾディックな環境でオンラインで動作し,学習過程を通じて安全性を確保する。
安全が重要であり、正確なモデリングが困難なシナリオにおいて、自律走行車レースや空力効果下でのドローンナビゲーションといった挑戦的な領域におけるアプローチの有効性を実証する。
関連論文リスト
- Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - Amortized Safe Active Learning for Real-Time Data Acquisition: Pretrained Neural Policies from Simulated Nonparametric Functions [23.406516455945653]
我々は、高価なオンライン計算を事前訓練されたニューラルポリシーで置き換える、償却された安全なALフレームワークを提案する。
我々のフレームワークはモジュール化されており、安全要件を省略することにより、制約のない、時間に敏感なALタスクに適応することができる。
論文 参考訳(メタデータ) (2025-01-26T09:05:52Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Active Dynamics Learning and Control: A Sequential
Exploration-Exploitation Framework [30.58186749790728]
本研究では,力学の不確実性の存在下での安全性を維持するための理論的に正当なアプローチを提案する。
我々のフレームワークは、常に全ての制約の高確率満足度を保証します。
この理論解析は、オンライン適応能力を改善する最終層メタラーニングモデルの2つの正則化を動機付けている。
論文 参考訳(メタデータ) (2020-08-26T17:39:58Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。