論文の概要: Online Safety Assurance for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.03625v1
- Date: Wed, 7 Oct 2020 19:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:45:36.322450
- Title: Online Safety Assurance for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のためのオンライン安全保証
- Authors: Noga H. Rotman, Michael Schapira and Aviv Tamar
- Abstract要約: 学習駆動システムの安全なデプロイには,システムの動作が一貫性があるかどうかをリアルタイムで判断できることが必要だ,と我々は主張する。
本稿では,不確かさを推定するために使用する信号によって異なる決定の不確かさを定量化する3つの手法を提案する。
予備的な知見は,決定の不確実性が検出された場合のデフォルトポリシへの移行が,安全を損なうことなくMLを活用することで得られるパフォーマンス上のメリットを享受する鍵であることを示唆している。
- 参考スコア(独自算出の注目度): 24.23670300606769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning has been successfully applied to a variety of
networking problems. A fundamental challenge is that when the operational
environment for a learning-augmented system differs from its training
environment, such systems often make badly informed decisions, leading to bad
performance. We argue that safely deploying learning-driven systems requires
being able to determine, in real time, whether system behavior is coherent, for
the purpose of defaulting to a reasonable heuristic when this is not so. We
term this the online safety assurance problem (OSAP). We present three
approaches to quantifying decision uncertainty that differ in terms of the
signal used to infer uncertainty. We illustrate the usefulness of online safety
assurance in the context of the proposed deep reinforcement learning (RL)
approach to video streaming. While deep RL for video streaming bests other
approaches when the operational and training environments match, it is
dominated by simple heuristics when the two differ. Our preliminary findings
suggest that transitioning to a default policy when decision uncertainty is
detected is key to enjoying the performance benefits afforded by leveraging ML
without compromising on safety.
- Abstract(参考訳): 近年,様々なネットワーク問題へのディープラーニングの適用が成功している。
基本的な課題は、学習学習型システムの運用環境がトレーニング環境と異なる場合、そのようなシステムはしばしば誤ったインフォームドな判断を行い、パフォーマンスが悪くなることである。
我々は、学習駆動システムの安全なデプロイには、システム動作が一貫性があるかどうかをリアルタイムで判断し、そうでない場合に合理的なヒューリスティックにデフォルトを付ける必要があると論じている。
これをオンライン安全保証問題(OSAP)と呼ぶ。
我々は,不確かさを推定するために使用される信号の観点で異なる決定不確かさを定量化する3つの手法を提案する。
本稿では、ビデオストリーミングにおける深層強化学習(RL)アプローチの文脈におけるオンライン安全保証の有用性について述べる。
ビデオストリーミングのdeep rlは、運用環境とトレーニング環境が一致する場合の他のアプローチよりも優れているが、両者の違いは単純なヒューリスティックスに支配されている。
予備的な知見は,決定の不確実性が検出された場合のデフォルトポリシへの移行が,安全を損なうことなくMLを活用することで得られるパフォーマンス上のメリットを享受する鍵であることを示唆している。
関連論文リスト
- Towards Safe Load Balancing based on Control Barrier Functions and Deep
Reinforcement Learning [0.691367883100748]
我々は,SD-WAN(Software Defined-Wide Area Network)のための安全な学習に基づくロードバランシングアルゴリズムを提案する。
制御バリア関数(CBF)を併用した深層強化学習(DRL)によって強化される。
提案手法は,リンク容量制約に関する安全性要件を尊重しつつ,エンドツーエンドの遅延の観点から,ほぼ最適品質(QoS)を提供することを示す。
論文 参考訳(メタデータ) (2024-01-10T19:43:12Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Safer Reinforcement Learning through Transferable Instinct Networks [6.09170287691728]
我々は,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
我々の本能制御型RL(IR2L)アプローチでは、望ましくない状況を認識するために「本能的」ネットワークを訓練する。
オープンAI安全体育ドメインのIR2Lについて, 安全性違反の件数が著しく少ないことを実証する。
論文 参考訳(メタデータ) (2021-07-14T13:22:04Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Falsification-Based Robust Adversarial Reinforcement Learning [13.467693018395863]
Falsification-based RARL (FRARL) は、対人学習における時間論理のファルシフィケーションを統合するための最初の汎用フレームワークである。
実験結果から, ファルシフィケーションをベースとした対向法で訓練したポリシーは, より一般化され, テストシナリオにおける安全仕様の違反が少なくなることが示された。
論文 参考訳(メタデータ) (2020-07-01T18:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。