論文の概要: Global Safe Sequential Learning via Efficient Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2402.14402v1
- Date: Thu, 22 Feb 2024 09:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:42:07.537744
- Title: Global Safe Sequential Learning via Efficient Knowledge Transfer
- Title(参考訳): 効率的な知識伝達によるグローバルセーフシーケンス学習
- Authors: Cen-You Li, Olaf Duennbier, Marc Toussaint, Barbara Rakitsch,
Christoph Zimmer
- Abstract要約: 多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。
安全性の学習を促進するために,安全なシーケンシャル学習を提案する。
- 参考スコア(独自算出の注目度): 23.406516455945653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential learning methods such as active learning and Bayesian optimization
select the most informative data to learn about a task. In many medical or
engineering applications, the data selection is constrained by a priori unknown
safety conditions. A promissing line of safe learning methods utilize Gaussian
processes (GPs) to model the safety probability and perform data selection in
areas with high safety confidence. However, accurate safety modeling requires
prior knowledge or consumes data. In addition, the safety confidence centers
around the given observations which leads to local exploration. As transferable
source knowledge is often available in safety critical experiments, we propose
to consider transfer safe sequential learning to accelerate the learning of
safety. We further consider a pre-computation of source components to reduce
the additional computational load that is introduced by incorporating source
data. In this paper, we theoretically analyze the maximum explorable safe
regions of conventional safe learning methods. Furthermore, we empirically
demonstrate that our approach 1) learns a task with lower data consumption, 2)
globally explores multiple disjoint safe regions under guidance of the source
knowledge, and 3) operates with computation comparable to conventional safe
learning methods.
- Abstract(参考訳): アクティブラーニングやベイズ最適化のような逐次学習法は、タスクについて学ぶために最も有益なデータを選択する。
多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。
安全学習手法の許容ラインは、ガウス過程(GP)を用いて安全性確率をモデル化し、安全性の高い領域でデータ選択を行う。
しかし、正確な安全モデリングには事前の知識が必要か、あるいはデータを消費する。
さらに、安全信頼性は、局所的な探索につながる与えられた観測を中心にしている。
トランスファー可能なソース知識は安全クリティカルな実験でしばしば利用できるため,安全性の学習を促進するために,トランスファーセーフシーケンシャルラーニングを検討すべきである。
さらに、ソースデータを組み込んだ計算負荷を低減するために、ソースコンポーネントの事前計算も検討する。
本稿では,従来の安全学習法の最大探索可能安全領域を理論的に解析する。
さらに我々は、我々のアプローチが
1)データ消費の少ないタスクを学習する。
2) 情報源知識の指導のもと, グローバルに複数の異分野の安全領域を探索する。
3) 計算処理は従来の安全な学習手法に匹敵する。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Data Generation Method for Learning a Low-dimensional Safe Region in
Safe Reinforcement Learning [9.903083270841638]
安全強化学習は、学習プロセス中にシステムや環境が損傷を受けないようにしながら、制御ポリシーを学習することを目的としている。
高非線形・高次元力学系に安全な強化学習を実装するためには、データ駆動特徴抽出法を用いて低次元の安全な領域を見つけることが考えられる。
学習した安全性推定の信頼性はデータに依存しているため、この研究において、異なるトレーニングデータが安全な強化学習アプローチにどのように影響するかを調査する。
論文 参考訳(メタデータ) (2021-09-10T19:22:43Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。