論文の概要: Tolerance of Reinforcement Learning Controllers against Deviations in Cyber Physical Systems
- arxiv url: http://arxiv.org/abs/2406.17066v1
- Date: Mon, 24 Jun 2024 18:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:40:56.006863
- Title: Tolerance of Reinforcement Learning Controllers against Deviations in Cyber Physical Systems
- Title(参考訳): サイバー物理システムの逸脱に対する強化学習制御器の耐用性
- Authors: Changjian Zhang, Parv Kapoor, Eunsuk Kang, Romulo Meira-Goes, David Garlan, Akila Ganlath, Shatadal Mishra, Nejib Ammar,
- Abstract要約: 我々は,コントローラが望まれるシステム要件を満たすことができるかを記述する,新しい表現力のある寛容の概念を導入する。
本稿では, 与えられた要件に違反する小さな偏差の発見を伴って, トレランス・ファルシフィケーション問題と呼ばれる新たな解析問題を提案する。
本稿では,2層シミュレーションに基づく新しい解析フレームワークと,小さな耐障害性違反を見つけるための新しい探索手法を提案する。
- 参考スコア(独自算出の注目度): 8.869030580266799
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Cyber-physical systems (CPS) with reinforcement learning (RL)-based controllers are increasingly being deployed in complex physical environments such as autonomous vehicles, the Internet-of-Things(IoT), and smart cities. An important property of a CPS is tolerance; i.e., its ability to function safely under possible disturbances and uncertainties in the actual operation. In this paper, we introduce a new, expressive notion of tolerance that describes how well a controller is capable of satisfying a desired system requirement, specified using Signal Temporal Logic (STL), under possible deviations in the system. Based on this definition, we propose a novel analysis problem, called the tolerance falsification problem, which involves finding small deviations that result in a violation of the given requirement. We present a novel, two-layer simulation-based analysis framework and a novel search heuristic for finding small tolerance violations. To evaluate our approach, we construct a set of benchmark problems where system parameters can be configured to represent different types of uncertainties and disturbancesin the system. Our evaluation shows that our falsification approach and heuristic can effectively find small tolerance violations.
- Abstract(参考訳): 強化学習(RL)ベースのコントローラを備えたサイバー物理システム(CPS)は、自動運転車やIoT(Internet-of-Things)、スマートシティといった複雑な物理的環境にますます展開されている。
CPSの重要な性質は耐久性、すなわち、実際の動作における障害や不確実性によって安全に機能する能力である。
本稿では,STL(Signal Temporal Logic)を用いて規定された,制御器が所望のシステム要件を満たすことができるかを示す,新しい表現力の概念を提案する。
この定義に基づき, 与えられた要件に違反する小さな偏差の発見を伴って, 耐久ファルシフィケーション問題と呼ばれる新たな解析問題を提案する。
本稿では,2層シミュレーションに基づく新しい解析フレームワークと,小さな耐障害性違反を見つけるための探索ヒューリスティックを提案する。
提案手法を評価するために,システム内の不確実性や乱れの異なるタイプを表現するために,システムパラメータを設定可能なベンチマーク問題を構築した。
本評価は,本法とヒューリスティック法を併用することにより,許容範囲が小さくなることを示す。
関連論文リスト
- Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Investigating Robustness in Cyber-Physical Systems: Specification-Centric Analysis in the face of System Deviations [8.8690305802668]
サイバー物理システム(CPS)の重要属性は堅牢性であり、安全に運用する能力を示している。
本稿では,特定のシステム要件を満たす上でのコントローラの有効性を特徴付ける,仕様に基づく新しいロバスト性を提案する。
本稿では, 微妙な堅牢性違反を識別するための2層シミュレーションに基づく解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:44:43Z) - DARTH: Holistic Test-time Adaptation for Multiple Object Tracking [87.72019733473562]
複数物体追跡(MOT)は、自律運転における知覚システムの基本的構成要素である。
運転システムの安全性の追求にもかかわらず、テスト時間条件における領域シフトに対するMOT適応問題に対する解決策は提案されていない。
我々はMOTの総合的なテスト時間適応フレームワークであるDARTHを紹介する。
論文 参考訳(メタデータ) (2023-10-03T10:10:42Z) - Constrained Reinforcement Learning using Distributional Representation for Trustworthy Quadrotor UAV Tracking Control [2.325021848829375]
本研究では, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクトリトラッカーを提案する。
提案手法は, 空気力学効果の真値と推定値の不確かさを正確に同定する。
本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。
論文 参考訳(メタデータ) (2023-02-22T23:15:56Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Adversarial Robustness Verification and Attack Synthesis in Stochastic
Systems [8.833548357664606]
我々は、離散時間マルコフ連鎖(DTMC)として定義されるシステムにおける対向的堅牢性のための公式な枠組みを開発する。
我々は、元の遷移確率の周囲に$varepsilon$ボールで制約された、敵がシステム遷移を摂動できる脅威モデルのクラスを概説する。
論文 参考訳(メタデータ) (2021-10-05T15:52:47Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Scalable Synthesis of Verified Controllers in Deep Reinforcement
Learning [0.0]
高品質の安全シールドを合成できる自動検証パイプラインを提案します。
私たちの重要な洞察は、事前に計算された安全シールドを使用して神経コントローラのトレーニングを制限し、神経コントローラから安全検証を分離することを含みます。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-20T19:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。