論文の概要: Control Synthesis of Cyber-Physical Systems for Real-Time Specifications through Causation-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.07715v1
- Date: Thu, 09 Oct 2025 02:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.823225
- Title: Control Synthesis of Cyber-Physical Systems for Real-Time Specifications through Causation-Guided Reinforcement Learning
- Title(参考訳): Causation-Guided Reinforcement Learningによるリアルタイム仕様のためのサイバー物理システムの制御合成
- Authors: Xiaochen Tang, Zhenya Zhang, Miaomiao Zhang, Jie An,
- Abstract要約: 信号時相論理(STL)は、リアルタイム制約を表現する強力な形式主義として登場した。
強化学習(RL)は未知環境における制御合成問題の解法として重要である。
本稿では,STLのオンライン因果監視によって導かれるオンライン報酬生成手法を提案する。
- 参考スコア(独自算出の注目度): 3.608670495432032
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In real-time and safety-critical cyber-physical systems (CPSs), control synthesis must guarantee that generated policies meet stringent timing and correctness requirements under uncertain and dynamic conditions. Signal temporal logic (STL) has emerged as a powerful formalism of expressing real-time constraints, with its semantics enabling quantitative assessment of system behavior. Meanwhile, reinforcement learning (RL) has become an important method for solving control synthesis problems in unknown environments. Recent studies incorporate STL-based reward functions into RL to automatically synthesize control policies. However, the automatically inferred rewards obtained by these methods represent the global assessment of a whole or partial path but do not accumulate the rewards of local changes accurately, so the sparse global rewards may lead to non-convergence and unstable training performances. In this paper, we propose an online reward generation method guided by the online causation monitoring of STL. Our approach continuously monitors system behavior against an STL specification at each control step, computing the quantitative distance toward satisfaction or violation and thereby producing rewards that reflect instantaneous state dynamics. Additionally, we provide a smooth approximation of the causation semantics to overcome the discontinuity of the causation semantics and make it differentiable for using deep-RL methods. We have implemented a prototype tool and evaluated it in the Gym environment on a variety of continuously controlled benchmarks. Experimental results show that our proposed STL-guided RL method with online causation semantics outperforms existing relevant STL-guided RL methods, providing a more robust and efficient reward generation framework for deep-RL.
- Abstract(参考訳): リアルタイムおよび安全クリティカルなサイバー物理システム(CPS)では、制御合成は、不確実かつダイナミックな条件下で生成されたポリシーが厳密なタイミングと正しさの要求を満たすことを保証しなければならない。
信号時相論理(STL)は、リアルタイムな制約を表現する強力な形式主義として現れ、その意味論はシステムの振る舞いを定量的に評価することを可能にする。
一方,強化学習(RL)は未知環境における制御合成問題の解法として重要である。
近年の研究では、制御ポリシを自動的に合成するために、STLベースの報酬関数をRLに組み込んでいる。
しかし、これらの手法によって得られる自動推論報酬は、全体または部分的なパスのグローバル評価を表すが、局所的な変化の報酬を正確に蓄積しないため、疎グローバル報酬は非収束性と不安定なトレーニングパフォーマンスをもたらす可能性がある。
本稿では,STLのオンライン因果監視によって導かれるオンライン報酬生成手法を提案する。
提案手法は,各制御ステップにおけるSTL仕様に対するシステム動作を継続的に監視し,満足度や違反に対する定量的距離を計算し,即時状態のダイナミクスを反映した報酬を生成する。
さらに、因果意味論のスムーズな近似を行い、因果意味論の不連続性を克服し、深部RL法で区別できるようにする。
我々は,Gym環境においてプロトタイプツールを実装し,連続的に制御されたベンチマークを用いて評価した。
実験の結果,オンライン因果関係を用いたSTL誘導型RL法は,既存のSTL誘導型RL法よりも優れており,より堅牢で効率的な深いRL報酬生成フレームワークを提供することがわかった。
関連論文リスト
- Safe Deployment of Offline Reinforcement Learning via Input Convex Action Correction [9.509828265491064]
オフライン強化学習(オフラインRL)は、化学プロセスシステムにおける制御戦略を開発するための有望なフレームワークを提供する。
本研究は, 常用RLを高効率で高効率に利用し, 室温重合反応器の高効率制御について検討する。
論文 参考訳(メタデータ) (2025-07-30T12:58:02Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - STL-Based Synthesis of Feedback Controllers Using Reinforcement Learning [8.680676599607125]
深層強化学習(DRL)は、未知の力学を持つ様々な複雑なシステムに対するフィードバックコントローラ(エージェント)の合成に使用される可能性がある。
RLでは、報酬関数はこれらのエージェントの望ましい振る舞いを特定する上で重要な役割を果たす。
信号時間論理(STL)の量的意味論を用いて,リアルタイムに報酬を生成する体系的な方法を提案する。
我々は,STLに基づく強化学習機構をいくつかの複雑な連続制御ベンチマーク上で評価し,STLのセマンティクスと文献で利用可能なセマンティクスを,制御エージェントの合成における有効性の観点から比較した。
論文 参考訳(メタデータ) (2022-12-02T08:31:46Z) - Accelerated Reinforcement Learning for Temporal Logic Control Objectives [10.216293366496688]
本稿では,未知マルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシーの問題に対処する。
本稿では,制御ポリシを関連手法よりもはるかに高速に学習可能な制御対象に対するモデルベース強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T17:09:51Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。