論文の概要: SAMBA: Safe Model-Based & Active Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.09436v1
- Date: Fri, 12 Jun 2020 10:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:03:20.999166
- Title: SAMBA: Safe Model-Based & Active Reinforcement Learning
- Title(参考訳): SAMBA: 安全なモデルベースとアクティブ強化学習
- Authors: Alexander I. Cowen-Rivers, Daniel Palenicek, Vincent Moens, Mohammed
Abdullah, Aivar Sootla, Jun Wang, Haitham Ammar
- Abstract要約: SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
- 参考スコア(独自算出の注目度): 59.01424351231993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose SAMBA, a novel framework for safe reinforcement
learning that combines aspects from probabilistic modelling, information
theory, and statistics. Our method builds upon PILCO to enable active
exploration using novel(semi-)metrics for out-of-sample Gaussian process
evaluation optimised through a multi-objective problem that supports
conditional-value-at-risk constraints. We evaluate our algorithm on a variety
of safe dynamical system benchmarks involving both low and high-dimensional
state representations. Our results show orders of magnitude reductions in
samples and violations compared to state-of-the-art methods. Lastly, we provide
intuition as to the effectiveness of the framework by a detailed analysis of
our active metrics and safety constraints.
- Abstract(参考訳): 本稿では,確率論的モデリング,情報理論,統計学といった側面を組み合わせた安全強化学習のための新しいフレームワークSAMBAを提案する。
提案手法はPILCO上に構築され,条件付き値-リスク制約をサポートする多目的問題により最適化されたサンプル外ガウス過程評価のためのノベル(セミ-)メトリックを用いたアクティブな探索を可能にする。
低次元と高次元の両方の状態表現を含む様々な安全な力学系ベンチマークでアルゴリズムを評価する。
以上の結果から, サンプルや違反の規模は, 最先端の手法に比べて大幅に減少した。
最後に、アクティブなメトリクスと安全性の制約を詳細に分析することで、フレームワークの有効性に関する直感を提供する。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Towards Precise Observations of Neural Model Robustness in Classification [2.127049691404299]
ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変化を処理するニューラルネットワークの能力を測定する。
私たちのアプローチは、安全クリティカルなアプリケーションにおけるモデルロバストネスのより深い理解に寄与します。
論文 参考訳(メタデータ) (2024-04-25T09:37:44Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - MUC-driven Feature Importance Measurement and Adversarial Analysis for
Random Forest [1.5896078006029473]
我々は形式的手法と論理的推論を活用して、ランダムフォレスト(RF)の予測を説明する新しいモデル固有の方法を開発した。
提案手法は, 最小不飽和コア(MUC)を中心に, 特徴重要度, 局所的・グローバル的側面, および対向的サンプル分析に関する包括的ソリューションを提供する。
提案手法はユーザ中心のレポートを作成でき,リアルタイムアプリケーションにレコメンデーションを提供するのに役立つ。
論文 参考訳(メタデータ) (2022-02-25T06:15:47Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。