論文の概要: Adaptive Reinforcement Learning for Unobservable Random Delays
- arxiv url: http://arxiv.org/abs/2506.14411v1
- Date: Tue, 17 Jun 2025 11:11:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.440697
- Title: Adaptive Reinforcement Learning for Unobservable Random Delays
- Title(参考訳): 観測不能なランダム遅延に対する適応的強化学習
- Authors: John Wikman, Alexandre Proutiere, David Broman,
- Abstract要約: 本稿では,エージェントが観測不能かつ時間変化の遅れを適応的に処理できる汎用フレームワークを提案する。
具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。
提案手法は,幅広いベンチマーク環境において,最先端の手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 46.04329493317009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In standard Reinforcement Learning (RL) settings, the interaction between the agent and the environment is typically modeled as a Markov Decision Process (MDP), which assumes that the agent observes the system state instantaneously, selects an action without delay, and executes it immediately. In real-world dynamic environments, such as cyber-physical systems, this assumption often breaks down due to delays in the interaction between the agent and the system. These delays can vary stochastically over time and are typically unobservable, meaning they are unknown when deciding on an action. Existing methods deal with this uncertainty conservatively by assuming a known fixed upper bound on the delay, even if the delay is often much lower. In this work, we introduce the interaction layer, a general framework that enables agents to adaptively and seamlessly handle unobservable and time-varying delays. Specifically, the agent generates a matrix of possible future actions to handle both unpredictable delays and lost action packets sent over networks. Building on this framework, we develop a model-based algorithm, Actor-Critic with Delay Adaptation (ACDA), which dynamically adjusts to delay patterns. Our method significantly outperforms state-of-the-art approaches across a wide range of locomotion benchmark environments.
- Abstract(参考訳): 標準的な強化学習(RL)設定では、エージェントと環境の間の相互作用は一般的にマルコフ決定プロセス(MDP)としてモデル化される。
サイバー物理システムのような現実世界の動的環境では、エージェントとシステム間の相互作用の遅延により、この仮定はしばしば崩壊する。
これらの遅延は時間とともに確率的に変化し、通常観測不可能である。
既存の方法では、遅延がはるかに低い場合であっても、遅延に既知の固定された上限を仮定することで、この不確実性に対処する。
本稿では,エージェントが適応的かつシームレスに観測不可能かつ時間変化の遅れを処理できる汎用フレームワークであるインタラクション層を紹介する。
具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。
この枠組みに基づいて,遅延パターンを動的に調整するモデルベースアルゴリズム Actor-Critic with Delay Adaptation (ACDA) を開発した。
本手法は, ローコモーションベンチマーク環境において, 最先端のアプローチを著しく上回っている。
関連論文リスト
- Rainbow Delay Compensation: A Multi-Agent Reinforcement Learning Framework for Mitigating Delayed Observation [10.511062258286335]
実世界のマルチエージェントシステムでは、観測遅延はユビキタスであり、エージェントが環境の真の状態に基づいて決定を下すのを防ぐ。
遅延特性の異なるこれらの離散観測成分は、マルチエージェント強化学習において重要な課題である。
まず、分散化された個別遅延部分観測可能決定プロセス(DSID-POMDP)を標準のDec-POMDPを拡張して定式化する。
次に、個々の遅延に対処するためのRainbow Delay Compensation (RDC)フレームワークを提案し、構成モジュールの実装を推奨する。
論文 参考訳(メタデータ) (2025-05-06T14:47:56Z) - Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。
観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。
我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文 参考訳(メタデータ) (2024-04-08T12:19:04Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Delays in Reinforcement Learning [2.5835347022640254]
この論文は、エージェントの環境状態の観察やエージェントの行動の実行の遅延を研究することを目的としている。
幅広い遅延が考慮され、潜在的な解決策が提示される。
論文 参考訳(メタデータ) (2023-09-20T07:04:46Z) - MTD: Multi-Timestep Detector for Delayed Streaming Perception [0.5439020425819]
ストリーミング知覚は、自律運転システムの遅延と精度を評価するために使用される、世界の現在の状態を報告するタスクである。
本稿では,マルチブランチ将来の予測に動的ルーティングを利用するエンドツーエンド検出器MTDを提案する。
提案手法はArgoverse-HDデータセットを用いて評価され,実験結果から,様々な遅延設定における最先端性能が得られたことが示された。
論文 参考訳(メタデータ) (2023-09-13T06:23:58Z) - Neural Laplace Control for Continuous-time Delayed Systems [76.81202657759222]
本稿では,ニューラルラプラス力学モデルとモデル予測制御(MPC)プランナを組み合わせた連続時間モデルに基づくオフラインRL法を提案する。
専門家の政策性能に近い連続的な遅延環境を実験的に示す。
論文 参考訳(メタデータ) (2023-02-24T12:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。