論文の概要: Global Safe Sequential Learning via Efficient Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2402.14402v3
- Date: Sat, 18 Jan 2025 13:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:09.105019
- Title: Global Safe Sequential Learning via Efficient Knowledge Transfer
- Title(参考訳): 効率的な知識伝達によるグローバルセーフシーケンス学習
- Authors: Cen-You Li, Olaf Duennbier, Marc Toussaint, Barbara Rakitsch, Christoph Zimmer,
- Abstract要約: 本稿では,タスク学習を高速化し,探索可能な安全な領域を拡張するために,安全な転送シーケンシャル学習を提案する。
関連するソースタスクからの大量のオフラインデータを活用することで、我々のアプローチはターゲットタスクの探索をより効果的にガイドする。
実験により,この手法は最先端の手法と比較して,データ消費の少ないタスクを学習することを示した。
- 参考スコア(独自算出の注目度): 21.817220232038157
- License:
- Abstract: Sequential learning methods, such as active learning and Bayesian optimization, aim to select the most informative data for task learning. In many applications, however, data selection is constrained by unknown safety conditions, motivating the development of safe learning approaches. A promising line of safe learning methods uses Gaussian processes to model safety conditions, restricting data selection to areas with high safety confidence. However, these methods are limited to local exploration around an initial seed dataset, as safety confidence centers around observed data points. As a consequence, task exploration is slowed down and safe regions disconnected from the initial seed dataset remain unexplored. In this paper, we propose safe transfer sequential learning to accelerate task learning and to expand the explorable safe region. By leveraging abundant offline data from a related source task, our approach guides exploration in the target task more effectively. We also provide a theoretical analysis to explain why single-task method cannot cope with disconnected regions. Finally, we introduce a computationally efficient approximation of our method that reduces runtime through pre-computations. Our experiments demonstrate that this approach, compared to state-of-the-art methods, learns tasks with lower data consumption and enhances global exploration across multiple disjoint safe regions, while maintaining comparable computational efficiency.
- Abstract(参考訳): アクティブラーニングやベイズ最適化といった逐次学習手法は,タスクラーニングに最も有用なデータを選択することを目的としている。
しかし、多くのアプリケーションにおいて、データ選択は未知の安全条件に制約され、安全な学習手法の開発を動機付けている。
安全な学習手法の有望なラインは、ガウス過程を用いて安全条件をモデル化し、データ選択を安全性の高い領域に制限する。
しかしながら、これらの手法は、観測されたデータポイントを中心に安全信頼性が集中するため、初期シードデータセット周辺の局所的な探索に限られる。
その結果、タスク探索は遅くなり、初期シードデータセットから分離された安全な領域は未探索のままである。
本稿では,タスク学習を高速化し,探索可能な安全な領域を拡張するために,安全な転送シーケンシャル学習を提案する。
関連するソースタスクからの大量のオフラインデータを活用することで、我々のアプローチはターゲットタスクの探索をより効果的にガイドする。
また, 単一タスク法が非連結領域に対処できない理由を理論的に解析する。
最後に,事前計算により実行時間を短縮する計算効率のよい近似法を提案する。
実験により,本手法は最先端の手法と比較して,データ消費の少ないタスクを学習し,計算効率を同等に保ちながら,複数の不連続な安全な領域を横断するグローバルな探索を促進することが実証された。
関連論文リスト
- Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Active Learning with Safety Constraints [25.258564629480063]
対話型環境における安全な判断を学習することの複雑さについて検討する。
適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。
論文 参考訳(メタデータ) (2022-06-22T15:45:38Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Data Generation Method for Learning a Low-dimensional Safe Region in
Safe Reinforcement Learning [9.903083270841638]
安全強化学習は、学習プロセス中にシステムや環境が損傷を受けないようにしながら、制御ポリシーを学習することを目的としている。
高非線形・高次元力学系に安全な強化学習を実装するためには、データ駆動特徴抽出法を用いて低次元の安全な領域を見つけることが考えられる。
学習した安全性推定の信頼性はデータに依存しているため、この研究において、異なるトレーニングデータが安全な強化学習アプローチにどのように影響するかを調査する。
論文 参考訳(メタデータ) (2021-09-10T19:22:43Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。