論文の概要: Robustness Verification of Deep Reinforcement Learning Based Control
Systems using Reward Martingales
- arxiv url: http://arxiv.org/abs/2312.09695v1
- Date: Fri, 15 Dec 2023 11:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:16:51.345006
- Title: Robustness Verification of Deep Reinforcement Learning Based Control
Systems using Reward Martingales
- Title(参考訳): Reward Martingales を用いた深層強化学習に基づく制御系のロバスト性検証
- Authors: Dapeng Zhi, Peixin Wang, Cheng Chen, Min Zhang
- Abstract要約: 本稿では,DRLに基づく制御システムのロバスト性検証のための報奨マーチンガレットの導入による最初のアプローチを提案する。
本結果は,2つの質問に対する有意な定量的証明を提供する。
次に、さまざまな種類の制御ポリシに対して、ニューラルネットワークを介して報酬マーチンガレットを実装およびトレーニングできることを示します。
- 参考スコア(独自算出の注目度): 13.069196356472272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has gained prominence as an effective
approach for control systems. However, its practical deployment is impeded by
state perturbations that can severely impact system performance. Addressing
this critical challenge requires robustness verification about system
performance, which involves tackling two quantitative questions: (i) how to
establish guaranteed bounds for expected cumulative rewards, and (ii) how to
determine tail bounds for cumulative rewards. In this work, we present the
first approach for robustness verification of DRL-based control systems by
introducing reward martingales, which offer a rigorous mathematical foundation
to characterize the impact of state perturbations on system performance in
terms of cumulative rewards. Our verified results provide provably quantitative
certificates for the two questions. We then show that reward martingales can be
implemented and trained via neural networks, against different types of control
policies. Experimental results demonstrate that our certified bounds tightly
enclose simulation outcomes on various DRL-based control systems, indicating
the effectiveness and generality of the proposed approach.
- Abstract(参考訳): 制御システムに対する効果的なアプローチとして,深層強化学習(DRL)が注目されている。
しかし、実際のデプロイメントは、システムパフォーマンスに重大な影響を及ぼす状態の摂動によって妨げられている。
この重要な課題に対処するには、システムのパフォーマンスに関する堅牢性検証が必要である。
(i)期待累積報酬の保証限度の設定方法、及び
(ii)累積報酬のテールバウンドを決定する方法。
本稿では,DRLに基づく制御システムのロバスト性検証のための最初のアプローチを提案する。この手法は,累積報酬の観点から,状態摂動がシステム性能に与える影響を特徴づける厳密な数学的基盤を提供する。
検証結果は,2つの質問に対して有効に定量的な証明を与える。
次に,報酬マーチンゲールをニューラルネットワークを通じて,異なる種類の制御ポリシに対して実装し,トレーニングできることを実証する。
実験の結果,提案手法の有効性と汎用性を示す各種drl制御系上でのシミュレーション結果が厳密に囲まれていることが判明した。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Decentralized Event-Triggered Online Learning for Safe Consensus of
Multi-Agent Systems with Gaussian Process Regression [3.405252606286664]
本稿では,補助力学によって強化された,学習に基づく分散制御法を提案する。
予測性能を継続的に向上するために、分散イベントトリガー機構を備えたデータ効率の高いオンライン学習戦略を提案する。
提案手法の有効性を示すため,従来の分散制御法とオフライン学習法を対比して比較分析を行った。
論文 参考訳(メタデータ) (2024-02-05T16:41:17Z) - Reliability Quantification of Deep Reinforcement Learning-based Control [0.0]
本研究ではDRL制御の信頼性を定量化する手法を提案する。
信頼性は、参照と評価の2つのニューラルネットワークを使用して定量化される。
提案手法は、状態に応じて訓練されたモデルを切り替える問題に対して適用された。
論文 参考訳(メタデータ) (2023-09-29T04:49:49Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing [41.093241772796475]
本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
論文 参考訳(メタデータ) (2021-06-17T07:58:32Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - The Impact of Data on the Stability of Learning-Based Control- Extended
Version [63.97366815968177]
本稿では,Lyapunovをベースとした,認証制御性能に対するデータの影響の定量化手法を提案する。
ガウス過程を通じて未知系の力学をモデル化することにより、モデルの不確実性と安定性条件の満足度の間の相互関係を決定できる。
論文 参考訳(メタデータ) (2020-11-20T19:10:01Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。