論文の概要: Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays
- arxiv url: http://arxiv.org/abs/2108.07555v1
- Date: Tue, 17 Aug 2021 10:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:23:55.505477
- Title: Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays
- Title(参考訳): 確率遅延を用いた強化学習のための状態強化手法の再検討
- Authors: Somjit Nath, Mayank Baranwal and Harshad Khadilkar
- Abstract要約: 本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
- 参考スコア(独自算出の注目度): 10.484851004093919
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Several real-world scenarios, such as remote control and sensing, are
comprised of action and observation delays. The presence of delays degrades the
performance of reinforcement learning (RL) algorithms, often to such an extent
that algorithms fail to learn anything substantial. This paper formally
describes the notion of Markov Decision Processes (MDPs) with stochastic delays
and shows that delayed MDPs can be transformed into equivalent standard MDPs
(without delays) with significantly simplified cost structure. We employ this
equivalence to derive a model-free Delay-Resolved RL framework and show that
even a simple RL algorithm built upon this framework achieves near-optimal
rewards in environments with stochastic delays in actions and observations. The
delay-resolved deep Q-network (DRDQN) algorithm is bench-marked on a variety of
environments comprising of multi-step and stochastic delays and results in
better performance, both in terms of achieving near-optimal rewards and
minimizing the computational overhead thereof, with respect to the currently
established algorithms.
- Abstract(参考訳): リモートコントロールやセンシングのような現実のシナリオは、アクションと観察遅延で構成されている。
遅延の存在は強化学習(RL)アルゴリズムの性能を低下させ、しばしばアルゴリズムが重要なことを学ばない程度に低下させる。
本稿では, 確率的遅延を伴うマルコフ決定過程 (MDP) の概念を正式に記述し, 遅延MDPは, コスト構造を著しく単純化した等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作と観測の確率的遅延を伴う環境において、ほぼ最適報酬を達成することを示す。
遅延分解深度Q-network (DRDQN) アルゴリズムは, マルチステップおよび確率遅延を含む様々な環境においてベンチマークされ, ほぼ最適報酬の達成と, その計算オーバーヘッドの最小化の両面において, 性能が向上する。
関連論文リスト
- DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。
様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-05T09:45:26Z) - Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。
観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。
我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文 参考訳(メタデータ) (2024-04-08T12:19:04Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - A Reduction-based Framework for Sequential Decision Making with Delayed
Feedback [53.79893086002961]
汎用マルチエージェントシーケンシャル意思決定における遅延フィードバックについて検討する。
本稿では, 逐次的意思決定のためのマルチバッチアルゴリズムを, 即時フィードバックにより, サンプル効率のよいアルゴリズムに変換する, 新たなリダクションベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-03T01:16:09Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Reinforcement Learning with Random Delays [14.707955337702943]
後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。
この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
論文 参考訳(メタデータ) (2020-10-06T18:39:23Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。