論文の概要: Logic-informed reinforcement learning for cross-domain optimization of large-scale cyber-physical systems
- arxiv url: http://arxiv.org/abs/2511.00806v1
- Date: Sun, 02 Nov 2025 05:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.943582
- Title: Logic-informed reinforcement learning for cross-domain optimization of large-scale cyber-physical systems
- Title(参考訳): 大規模サイバー物理システムのクロスドメイン最適化のための論理インフォーム強化学習
- Authors: Guangxi Wan, Peng Zeng, Xiaoting Dong, Chunhe Song, Shijie Cui, Dong Li, Qingwei Dong, Yiyang Liu, Hongfei Bai,
- Abstract要約: サイバー物理システムのための論理情報強化学習(LIRL)を提案する。
LIRL は低次元の潜在作用をオンザフライで定義された許容可能なハイブリッド多様体に一階述語論理でマッピングする。
一貫して制約違反をゼロに保ち、最先端のハイブリッドアクション強化学習ベースラインをはるかに上回る。
- 参考スコア(独自算出の注目度): 7.352750348429755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyber-physical systems (CPS) require the joint optimization of discrete cyber actions and continuous physical parameters under stringent safety logic constraints. However, existing hierarchical approaches often compromise global optimality, whereas reinforcement learning (RL) in hybrid action spaces often relies on brittle reward penalties, masking, or shielding and struggles to guarantee constraint satisfaction. We present logic-informed reinforcement learning (LIRL), which equips standard policy-gradient algorithms with projection that maps a low-dimensional latent action onto the admissible hybrid manifold defined on-the-fly by first-order logic. This guarantees feasibility of every exploratory step without penalty tuning. Experimental evaluations have been conducted across multiple scenarios, including industrial manufacturing, electric vehicle charging stations, and traffic signal control, in all of which the proposed method outperforms existing hierarchical optimization approaches. Taking a robotic reducer assembly system in industrial manufacturing as an example, LIRL achieves a 36.47\% to 44.33\% reduction at most in the combined makespan-energy objective compared to conventional industrial hierarchical scheduling methods. Meanwhile, it consistently maintains zero constraint violations and significantly surpasses state-of-the-art hybrid-action reinforcement learning baselines. Thanks to its declarative logic-based constraint formulation, the framework can be seamlessly transferred to other domains such as smart transportation and smart grid, thereby paving the way for safe and real-time optimization in large-scale CPS.
- Abstract(参考訳): サイバー物理システム(CPS)は、厳密な安全論理制約の下で、離散的なサイバーアクションと連続的な物理パラメータを共同で最適化する必要がある。
しかし、既存の階層的アプローチはグローバルな最適性を損なうことが多いが、ハイブリッドな行動空間における強化学習(RL)は、しばしば脆弱な報酬の罰則、マスキング、遮蔽、制約の満足度を保証するのに苦労している。
論理インフォームド強化学習(LIRL)では,低次元の潜在作用をオンザフライで定義した許容ハイブリッド多様体に一階述語論理でマッピングするプロジェクションを標準方針勾配アルゴリズムに装備する。
これは、ペナルティチューニングなしで探索ステップ毎に実現可能であることを保証します。
産業生産, 電気自動車充電ステーション, 交通信号制御など, 様々なシナリオで実験的評価が行われ, 提案手法は既存の階層最適化手法よりも優れていた。
工業生産におけるロボットリデューサの組立システムを例にとり、従来の工業的階層的スケジューリング手法と比較して、最大で36.47\%から44.33\%の削減を実現している。
一方、ゼロ制約違反を一貫して維持し、最先端のハイブリッドアクション強化学習ベースラインを大幅に超えている。
宣言型ロジックベースの制約の定式化により、このフレームワークはスマートトランスポートやスマートグリッドといった他のドメインにシームレスに転送可能となり、大規模なCPSにおいて安全かつリアルタイムな最適化を実現することができる。
関連論文リスト
- Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - Safe Deep Reinforcement Learning for Resource Allocation with Peak Age of Information Violation Guarantees [10.177917426690701]
本稿では,WNCS(Ultra-Reliable Wireless Networked Control Systems)のための新しい最適化理論に基づく安全な深部強化学習(DRL)フレームワークを提案する。
このフレームワークは、ピークエイジ・オブ・インフォメーション(PAoI)違反の確率、送信電力、有限ブロック長系におけるスケジューリング可能性など、重要な制約下での消費電力を最小化する。
提案したフレームワークはルールベースおよび他の最適化理論に基づくDRLベンチマークよりも優れており、より高速な収束、より高い報酬、より高い安定性を実現している。
論文 参考訳(メタデータ) (2025-07-11T14:57:37Z) - Robust Policy Switching for Antifragile Reinforcement Learning for UAV Deconfliction in Adversarial Environments [6.956559003734227]
無人航空機(UAV)は、強化学習(RL)の脆弱性を利用する敵の攻撃にさらされている。
本稿では,より広範な分布シフトへの適応性を高めるための反フレジブルRLフレームワークを提案する。
より優れた性能を発揮し、短い航法路の長さと衝突のない航法軌道の速度を示す。
論文 参考訳(メタデータ) (2025-06-26T10:06:29Z) - Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - Enforcing Policy Feasibility Constraints through Differentiable
Projection for Energy Optimization [57.88118988775461]
本稿では,ニューラルポリシー内での凸操作制約を強制するために,PROF(Projected Feasibility)を提案する。
エネルギー効率の高い建築操作とインバータ制御の2つの応用についてPROFを実証する。
論文 参考訳(メタデータ) (2021-05-19T01:58:10Z) - Model-based Safe Reinforcement Learning using Generalized Control
Barrier Function [6.556257209888797]
本稿では,制約付きRLのモデルに基づく実現性向上手法を提案する。
モデル情報を使用することで、実際の安全制約に違反することなく、ポリシーを安全に最適化することができる。
提案手法は最大4倍の制約違反を達成し、ベースライン制約RLアプローチよりも3.36倍の速度で収束する。
論文 参考訳(メタデータ) (2021-03-02T08:17:38Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。