論文の概要: Fault-Tolerant Design and Multi-Objective Model Checking for Real-Time Deep Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2603.23113v1
- Date: Tue, 24 Mar 2026 12:08:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.46363
- Title: Fault-Tolerant Design and Multi-Objective Model Checking for Real-Time Deep Reinforcement Learning Systems
- Title(参考訳): 実時間深部強化学習システムのための耐故障設計と多目的モデル検査
- Authors: Guoxin Su, Thomas Robinson, Hoa Khanh Dam, Li Liu, David S. Rosenblum,
- Abstract要約: 深層強化学習(DRL)は、複雑な意思決定問題を解決するための強力なパラダイムとして登場した。
DRLベースのシステムは、シミュレーションと現実のギャップ、アウト・オブ・ディストリビューション・オブ・ディストリビューションの観察、遅延の重大な影響により、依然として重大な信頼性の問題に直面している。
本稿では,DRLエージェントと代替コントローラ間のリアルタイムスイッチング機構の設計と解析を行うための公式なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.759578639008443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has emerged as a powerful paradigm for solving complex decision-making problems. However, DRL-based systems still face significant dependability challenges particularly in real-time environments due to the simulation-to-reality gap, out-of-distribution observations, and the critical impact of latency. Latency-induced faults, in particular, can lead to unsafe or unstable behaviour, yet existing fault-tolerance approaches to DRL systems lack formal methods to rigorously analyse and optimise performance and safety simultaneously in real-time settings. To address this, we propose a formal framework for designing and analysing real-time switching mechanisms between DRL agents and alternative controllers. Our approach leverages Timed Automata (TAs) for explicit switch logic design, which is then syntactically converted to a Markov Decision Process (MDP) for formal analysis. We develop a novel convex query technique for multi-objective model checking, enabling the optimisation of soft performance objectives while ensuring hard safety constraints for MDPs. Furthermore, we present MOPMC, a GPU-accelerated software tool implementing this technique, demonstrating superior scalability in both model size and objective numbers.
- Abstract(参考訳): 深層強化学習(DRL)は、複雑な意思決定問題を解決するための強力なパラダイムとして登場した。
しかし、DRLベースのシステムは、シミュレーションと現実のギャップ、分布外観察、遅延の重大な影響により、特にリアルタイム環境において重要な信頼性上の課題に直面している。
しかしDRLシステムに対する既存のフォールトトレランスアプローチでは、リアルタイム設定でパフォーマンスと安全性を厳格に分析し、最適化するための形式的手法が欠如している。
そこで本研究では,DRLエージェントと代替コントローラ間のリアルタイムスイッチング機構の設計と解析を行うための公式なフレームワークを提案する。
提案手法では,明示的なスイッチ論理設計にTimed Automata (TAs) を用い,形式解析にMarkov Decision Process (MDP) に構文的に変換する。
我々は,多目的モデル検査のための新しい凸クエリ手法を開発し,MPPの厳密な安全性を確保しつつ,ソフトパフォーマンス目標の最適化を可能にする。
さらに,この手法を実装したGPU高速化ソフトウェアであるMOPMCについて,モデルサイズと対象数の両方において優れたスケーラビリティを示す。
関連論文リスト
- Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Reinforcement Learning for Control Systems with Time Delays: A Comprehensive Survey [2.3602634041257624]
強化学習(RL)は複雑な力学系の制御と意思決定において顕著な成功を収めた。
ほとんどのRLアルゴリズムはマルコフ決定過程(Markov Decision Process)の仮定に依存している。
本稿では,制御系の時間遅延に対処するRL法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2026-01-30T23:25:30Z) - Control Synthesis of Cyber-Physical Systems for Real-Time Specifications through Causation-Guided Reinforcement Learning [3.608670495432032]
信号時相論理(STL)は、リアルタイム制約を表現する強力な形式主義として登場した。
強化学習(RL)は未知環境における制御合成問題の解法として重要である。
本稿では,STLのオンライン因果監視によって導かれるオンライン報酬生成手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T02:49:28Z) - Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。
標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。
MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-14T02:31:52Z) - Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control [0.0]
本研究では, 深部強化学習(DRL)の枠組みを用いた新しいロバスト制御手法を提案する。
問題設定は、不確実性と非線形性を考慮した制御系に対して、バニラMDPの集合である潜在マルコフ決定プロセス(LMDP)を介してモデル化される。
従来のDRLベースの制御と比較して、提案するコントローラ設計はより賢く、高度な一般化能力を実現することができる。
論文 参考訳(メタデータ) (2025-04-28T12:09:07Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。