論文の概要: Reliability Quantification of Deep Reinforcement Learning-based Control
- arxiv url: http://arxiv.org/abs/2309.16977v2
- Date: Sat, 14 Oct 2023 01:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 03:18:05.822848
- Title: Reliability Quantification of Deep Reinforcement Learning-based Control
- Title(参考訳): 深部強化学習に基づく制御の信頼性定量化
- Authors: Hitoshi Yoshioka, Hirotada Hashimoto
- Abstract要約: 本研究ではDRL制御の信頼性を定量化する手法を提案する。
信頼性は、参照と評価の2つのニューラルネットワークを使用して定量化される。
提案手法は、状態に応じて訓練されたモデルを切り替える問題に対して適用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliability quantification of deep reinforcement learning (DRL)-based control
is a significant challenge for the practical application of artificial
intelligence (AI) in safety-critical systems. This study proposes a method for
quantifying the reliability of DRL-based control. First, an existing method,
random noise distillation, was applied to the reliability evaluation to clarify
the issues to be solved. Second, a novel method for reliability quantification
was proposed to solve these issues. The reliability is quantified using two
neural networks: reference and evaluator. They have the same structure with the
same initial parameters. The outputs of the two networks were the same before
training. During training, the evaluator network parameters were updated to
maximize the difference between the reference and evaluator networks for
trained data. Thus, the reliability of the DRL-based control for a state can be
evaluated based on the difference in output between the two networks. The
proposed method was applied to DQN-based control as an example of a simple
task, and its effectiveness was demonstrated. Finally, the proposed method was
applied to the problem of switching trained models depending on the state.
Con-sequently, the performance of the DRL-based control was improved by
switching the trained models according to their reliability.
- Abstract(参考訳): 深部強化学習(DRL)に基づく制御の信頼性定量化は、安全クリティカルシステムにおける人工知能(AI)の実用化において重要な課題である。
本研究ではDRL制御の信頼性を定量化する手法を提案する。
まず, 従来手法であるランダムノイズ蒸留法を信頼性評価に適用し, 解決すべき課題を明らかにした。
第二に、これらの問題を解決するために信頼性定量化の新しい手法が提案された。
信頼性は、参照と評価の2つのニューラルネットワークを使用して定量化される。
それらは同じ初期パラメータを持つ同じ構造を持つ。
2つのネットワークの出力はトレーニング前に同じでした。
トレーニング中、評価器ネットワークパラメータを更新し、トレーニングされたデータに対する基準と評価器ネットワークの違いを最大化する。
これにより、2つのネットワーク間の出力差に基づいて、状態に対するDRLベースの制御の信頼性を評価することができる。
簡単なタスクの例としてDQNに基づく制御に適用し,その有効性を実証した。
最後に, 学習モデルの状態に応じて切り換える問題に対して, 提案手法を適用した。
その結果,drl制御の性能は,信頼性に応じてモデルの切り替えにより向上した。
関連論文リスト
- Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - A Perspective of Q-value Estimation on Offline-to-Online Reinforcement
Learning [54.48409201256968]
オフラインからオンラインへの強化学習(O2O RL)は、少数のオンラインサンプルを使用して、オフライン事前訓練ポリシーのパフォーマンスを改善することを目的としている。
ほとんどのO2O手法は、RLの目的と悲観のバランス、オフラインとオンラインのサンプルの利用に焦点を当てている。
論文 参考訳(メタデータ) (2023-12-12T19:24:35Z) - Digital Twin Assisted Deep Reinforcement Learning for Online Admission
Control in Sliced Network [19.152875040151976]
この問題に対処するために、ディジタルツイン(DT)高速化DRLソリューションを提案する。
ニューラルネットワークベースのDTは、システムをキューイングするためのカスタマイズされた出力層を備え、教師付き学習を通じてトレーニングされ、DRLモデルのトレーニングフェーズを支援するために使用される。
DT加速DRLは、直接訓練された最先端Q-ラーニングモデルと比較して、リソース利用率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-10-07T09:09:19Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Model-Free Voltage Regulation of Unbalanced Distribution Network Based
on Surrogate Model and Deep Reinforcement Learning [9.984416150031217]
本稿では,サロゲートモデルと深部強化学習(DRL)に基づくモデルフリーアプローチを開発する。
また、バランスの取れない3段階シナリオに対応するように拡張しました。
論文 参考訳(メタデータ) (2020-06-24T18:49:41Z) - Two-stage Deep Reinforcement Learning for Inverter-based Volt-VAR
Control in Active Distribution Networks [3.260913246106564]
本稿では,インバータを用いたエネルギー資源の制御により,電圧分布を改善するための2段階深部強化学習法を提案する。
オフライン段階では、モデルミスマッチに頑健なオフラインエージェントを訓練するために、高い効率の対向強化学習アルゴリズムが開発された。
連続的なオンライン段階において、オフラインエージェントをオンラインエージェントとして安全に転送し、継続的な学習を行い、オンラインで制御し、安全性と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2020-05-20T08:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。