論文の概要: Reinforcement Learning for Control Systems with Time Delays: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2602.00399v1
- Date: Fri, 30 Jan 2026 23:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.160781
- Title: Reinforcement Learning for Control Systems with Time Delays: A Comprehensive Survey
- Title(参考訳): 時間遅延を考慮した制御系の強化学習:包括的調査
- Authors: Armando Alves Neto,
- Abstract要約: 強化学習(RL)は複雑な力学系の制御と意思決定において顕著な成功を収めた。
ほとんどのRLアルゴリズムはマルコフ決定過程(Markov Decision Process)の仮定に依存している。
本稿では,制御系の時間遅延に対処するRL法に関する総合的な調査を行う。
- 参考スコア(独自算出の注目度): 2.3602634041257624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last decade, Reinforcement Learning (RL) has achieved remarkable success in the control and decision-making of complex dynamical systems. However, most RL algorithms rely on the Markov Decision Process assumption, which is violated in practical cyber-physical systems affected by sensing delays, actuation latencies, and communication constraints. Such time delays introduce memory effects that can significantly degrade performance and compromise stability, particularly in networked and multi-agent environments. This paper presents a comprehensive survey of RL methods designed to address time delays in control systems. We first formalize the main classes of delays and analyze their impact on the Markov property. We then systematically categorize existing approaches into five major families: state augmentation and history-based representations, recurrent policies with learned memory, predictor-based and model-aware methods, robust and domain-randomized training strategies, and safe RL frameworks with explicit constraint handling. For each family, we discuss underlying principles, practical advantages, and inherent limitations. A comparative analysis highlights key trade-offs among these approaches and provides practical guidelines for selecting suitable methods under different delay characteristics and safety requirements. Finally, we identify open challenges and promising research directions, including stability certification, large-delay learning, multi-agent communication co-design, and standardized benchmarking. This survey aims to serve as a unified reference for researchers and practitioners developing reliable RL-based controllers in delay-affected cyber-physical systems.
- Abstract(参考訳): 過去10年間で、強化学習(RL)は複雑な力学系の制御と意思決定において顕著な成功を収めた。
しかし、ほとんどのRLアルゴリズムはマルコフ決定プロセス(Markov Decision Process)の仮定に頼っている。
このような遅延は、特にネットワークやマルチエージェント環境において、性能を著しく低下させ、安定性を損なうメモリ効果をもたらす。
本稿では,制御系の時間遅延に対処するRL法に関する総合的な調査を行う。
まず、遅延の主要なクラスを定式化し、マルコフ特性への影響を分析する。
次に、既存のアプローチを5つの主要なファミリーに分類する。状態拡張と履歴ベース表現、学習記憶による繰り返しポリシー、予測とモデル認識の手法、堅牢でドメインランダムなトレーニング戦略、明示的な制約処理を備えた安全なRLフレームワーク。
各家族について、基礎となる原則、実践上の利点、および固有の制限について議論する。
比較分析では、これらのアプローチの主なトレードオフを強調し、異なる遅延特性と安全性要件の下で適切な方法を選択するための実践的なガイドラインを提供する。
最後に,安定性の証明,大規模遅延学習,マルチエージェント通信協調設計,標準化ベンチマークなど,オープンな課題と有望な研究方向を特定した。
この調査は、遅延に影響を及ぼすサイバー物理システムにおいて、信頼性の高いRLベースのコントローラを開発する研究者や実践者にとって、統一的な基準となることを目的としている。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control [21.22244612145334]
拡散政策はロボット制御の強力なアプローチとして現れている。
スケーラブルなロボット制御システムのためのオンライン拡散政策強化学習(オンラインDPRL)アルゴリズムについて検討した。
論文 参考訳(メタデータ) (2026-01-05T05:19:23Z) - Control Synthesis of Cyber-Physical Systems for Real-Time Specifications through Causation-Guided Reinforcement Learning [3.608670495432032]
信号時相論理(STL)は、リアルタイム制約を表現する強力な形式主義として登場した。
強化学習(RL)は未知環境における制御合成問題の解法として重要である。
本稿では,STLのオンライン因果監視によって導かれるオンライン報酬生成手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T02:49:28Z) - Learning Robust Penetration-Testing Policies under Partial Observability: A systematic evaluation [0.28675177318965045]
セキュリティ脆弱性を特定するためのサイバー攻撃のシミュレーションである侵入テストは、シーケンシャルな意思決定の問題を提示している。
部分可観測性はマルコフ決定過程に存在するマルコフ特性を無効にする。
実世界の複雑性をよりよく反映することを目的として,異なる大きさのホストネットワーク上での部分的に観測可能な浸透試験シナリオについて検討した。
論文 参考訳(メタデータ) (2025-09-24T11:27:54Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [53.85659415230589]
本稿では,広く採用されている強化学習手法を体系的にレビューする。
特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。
また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文 参考訳(メタデータ) (2025-08-11T17:39:45Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Investigating Robustness in Cyber-Physical Systems: Specification-Centric Analysis in the face of System Deviations [8.8690305802668]
サイバー物理システム(CPS)の重要属性は堅牢性であり、安全に運用する能力を示している。
本稿では,特定のシステム要件を満たす上でのコントローラの有効性を特徴付ける,仕様に基づく新しいロバスト性を提案する。
本稿では, 微妙な堅牢性違反を識別するための2層シミュレーションに基づく解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:44:43Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。