論文の概要: Transfer Learning for Efficient Iterative Safety Validation
- arxiv url: http://arxiv.org/abs/2012.05336v1
- Date: Wed, 9 Dec 2020 21:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 01:50:08.360667
- Title: Transfer Learning for Efficient Iterative Safety Validation
- Title(参考訳): 効率的な反復型安全検証のための伝達学習
- Authors: Anthony Corso and Mykel J. Kochenderfer
- Abstract要約: 強化学習に基づく安全性検証アルゴリズムの効率性向上のために転送学習を適用します。
我々は、グリッドワールドおよび自律走行シナリオにおける安全検証タスクの実験を行う。
- 参考スコア(独自算出の注目度): 40.29552672672265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety validation is important during the development of safety-critical
autonomous systems but can require significant computational effort. Existing
algorithms often start from scratch each time the system under test changes. We
apply transfer learning to improve the efficiency of reinforcement learning
based safety validation algorithms when applied to related systems. Knowledge
from previous safety validation tasks is encoded through the action value
function and transferred to future tasks with a learned set of attention
weights. Including a learned state and action value transformation for each
source task can improve performance even when systems have substantially
different failure modes. We conduct experiments on safety validation tasks in
gridworld and autonomous driving scenarios. We show that transfer learning can
improve the initial and final performance of validation algorithms and reduce
the number of training steps.
- Abstract(参考訳): 安全性検証は、安全クリティカルな自律システムの開発において重要であるが、かなりの計算努力を要する。
既存のアルゴリズムは、テスト中のシステムが変更するたびにスクラッチから始まることが多い。
伝達学習を応用して、関連するシステムに適用した場合の強化学習に基づく安全性検証アルゴリズムの効率を向上させる。
従来の安全検証タスクからの知識はアクション値関数を通じて符号化され、学習された注意重みで将来のタスクに転送される。
学習状態と各ソースタスクに対するアクション値変換を含めると、システムにはかなり異なる障害モードがある場合でも、パフォーマンスが向上する。
グリッドワールドおよび自律走行シナリオにおける安全検証タスクの実験を行う。
転送学習は、検証アルゴリズムの初期および最終性能を改善し、トレーニングステップの数を削減できることを示す。
関連論文リスト
- Learning Control Barrier Functions and their application in Reinforcement Learning: A Survey [11.180978323594822]
強化学習は、新しいロボット行動を開発するための強力な技術である。
安全性の考慮事項を取り入れ、実際のロボットへの迅速な移動を可能にし、生涯の学習を容易にすることを目的としている。
安全な強化学習における有望なアプローチの1つは、制御障壁関数の使用である。
論文 参考訳(メタデータ) (2024-04-22T22:52:14Z) - Adaptive Aggregation for Safety-Critical Control [3.1692938090731584]
安全クリティカル制御のためのアダプティブアグリゲーションフレームワークを提案する。
我々のアルゴリズムは、いくつかのベースラインと比較してデータ効率が良く、安全性違反が少ない。
論文 参考訳(メタデータ) (2023-02-07T16:53:33Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Barrier Certified Safety Learning Control: When Sum-of-Square
Programming Meets Reinforcement Learning [0.0]
本研究は、強化学習よりも制御障壁関数を採用し、安全性を完全に維持するための補償アルゴリズムを提案する。
2次プログラミングに基づく強化学習法と比較して、我々の2次プログラミングに基づく強化学習は、その優位性を示している。
論文 参考訳(メタデータ) (2022-06-16T04:38:50Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - Neural Network Repair with Reachability Analysis [10.384532888747993]
安全は次世代の自律性にとって重要な問題であり、知覚と制御のためにディープニューラルネットワークに大きく依存する可能性が高い。
本研究は,安全クリティカルシステムにおける安全でないDNNを到達可能性解析で修復する枠組みを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:56:51Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。