論文の概要: Global Safe Sequential Learning via Efficient Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2402.14402v1
- Date: Thu, 22 Feb 2024 09:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:42:07.537744
- Title: Global Safe Sequential Learning via Efficient Knowledge Transfer
- Title(参考訳): 効率的な知識伝達によるグローバルセーフシーケンス学習
- Authors: Cen-You Li, Olaf Duennbier, Marc Toussaint, Barbara Rakitsch,
Christoph Zimmer
- Abstract要約: 多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。
安全性の学習を促進するために,安全なシーケンシャル学習を提案する。
- 参考スコア(独自算出の注目度): 23.406516455945653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential learning methods such as active learning and Bayesian optimization
select the most informative data to learn about a task. In many medical or
engineering applications, the data selection is constrained by a priori unknown
safety conditions. A promissing line of safe learning methods utilize Gaussian
processes (GPs) to model the safety probability and perform data selection in
areas with high safety confidence. However, accurate safety modeling requires
prior knowledge or consumes data. In addition, the safety confidence centers
around the given observations which leads to local exploration. As transferable
source knowledge is often available in safety critical experiments, we propose
to consider transfer safe sequential learning to accelerate the learning of
safety. We further consider a pre-computation of source components to reduce
the additional computational load that is introduced by incorporating source
data. In this paper, we theoretically analyze the maximum explorable safe
regions of conventional safe learning methods. Furthermore, we empirically
demonstrate that our approach 1) learns a task with lower data consumption, 2)
globally explores multiple disjoint safe regions under guidance of the source
knowledge, and 3) operates with computation comparable to conventional safe
learning methods.
- Abstract(参考訳): アクティブラーニングやベイズ最適化のような逐次学習法は、タスクについて学ぶために最も有益なデータを選択する。
多くの医学や工学の応用において、データの選択は事前の未知の安全条件によって制約される。
安全学習手法の許容ラインは、ガウス過程(GP)を用いて安全性確率をモデル化し、安全性の高い領域でデータ選択を行う。
しかし、正確な安全モデリングには事前の知識が必要か、あるいはデータを消費する。
さらに、安全信頼性は、局所的な探索につながる与えられた観測を中心にしている。
トランスファー可能なソース知識は安全クリティカルな実験でしばしば利用できるため,安全性の学習を促進するために,トランスファーセーフシーケンシャルラーニングを検討すべきである。
さらに、ソースデータを組み込んだ計算負荷を低減するために、ソースコンポーネントの事前計算も検討する。
本稿では,従来の安全学習法の最大探索可能安全領域を理論的に解析する。
さらに我々は、我々のアプローチが
1)データ消費の少ないタスクを学習する。
2) 情報源知識の指導のもと, グローバルに複数の異分野の安全領域を探索する。
3) 計算処理は従来の安全な学習手法に匹敵する。
関連論文リスト
- Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Active Learning with Safety Constraints [25.258564629480063]
対話型環境における安全な判断を学習することの複雑さについて検討する。
適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。
論文 参考訳(メタデータ) (2022-06-22T15:45:38Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Data Generation Method for Learning a Low-dimensional Safe Region in
Safe Reinforcement Learning [9.903083270841638]
安全強化学習は、学習プロセス中にシステムや環境が損傷を受けないようにしながら、制御ポリシーを学習することを目的としている。
高非線形・高次元力学系に安全な強化学習を実装するためには、データ駆動特徴抽出法を用いて低次元の安全な領域を見つけることが考えられる。
学習した安全性推定の信頼性はデータに依存しているため、この研究において、異なるトレーニングデータが安全な強化学習アプローチにどのように影響するかを調査する。
論文 参考訳(メタデータ) (2021-09-10T19:22:43Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。