論文の概要: Reinforcement Learning with Random Delays
- arxiv url: http://arxiv.org/abs/2010.02966v3
- Date: Tue, 4 May 2021 20:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:39:38.903264
- Title: Reinforcement Learning with Random Delays
- Title(参考訳): ランダム遅延による強化学習
- Authors: Simon Ramstedt, Yann Bouteiller, Giovanni Beltrame, Christopher Pal,
Jonathan Binas
- Abstract要約: 後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。
この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
- 参考スコア(独自算出の注目度): 14.707955337702943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action and observation delays commonly occur in many Reinforcement Learning
applications, such as remote control scenarios. We study the anatomy of
randomly delayed environments, and show that partially resampling trajectory
fragments in hindsight allows for off-policy multi-step value estimation. We
apply this principle to derive Delay-Correcting Actor-Critic (DCAC), an
algorithm based on Soft Actor-Critic with significantly better performance in
environments with delays. This is shown theoretically and also demonstrated
practically on a delay-augmented version of the MuJoCo continuous control
benchmark.
- Abstract(参考訳): アクションと観察の遅延は、リモートコントロールシナリオなど、多くの強化学習アプリケーションで一般的に発生する。
ランダムに遅延した環境の解剖学を調べた結果,後方の軌道断片を部分的に再サンプリングすることで,オフ・ポリティクスの多段階評価が可能となった。
この原理を適用し,遅延のある環境において,ソフトアクタクリティカルに基づくアルゴリズムである遅延補正アクタクリティカル(DCAC)を導出する。
これは理論的に示され、MuJoCo連続制御ベンチマークの遅延増大バージョンでも実際に実証されている。
関連論文リスト
- Stochastic Approximation with Delayed Updates: Finite-Time Rates under
Markovian Sampling [76.72850243028888]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Non-stationary Delayed Combinatorial Semi-Bandit with Causally Related
Rewards [7.0997346625024]
我々は、因果関係の報酬で非定常かつ遅延半帯域問題を定式化する。
遅延したフィードバックから構造的依存関係を学習し、それを利用して意思決定を最適化する政策を開発する。
イタリアにおけるCovid-19の拡散に最も寄与する地域を検出するために, 合成および実世界のデータセットを用いて数値解析により評価を行った。
論文 参考訳(メタデータ) (2023-07-18T09:22:33Z) - Neural Laplace Control for Continuous-time Delayed Systems [76.81202657759222]
本稿では,ニューラルラプラス力学モデルとモデル予測制御(MPC)プランナを組み合わせた連続時間モデルに基づくオフラインRL法を提案する。
専門家の政策性能に近い連続的な遅延環境を実験的に示す。
論文 参考訳(メタデータ) (2023-02-24T12:40:28Z) - Continuous Episodic Control [7.021281655855703]
本稿では,連続行動空間の問題における逐次決定のための新しい非パラメトリックエピソードメモリアルゴリズムであるContinuous Episodic Control (CEC)を紹介する。
いくつかのスパース・リワード連続制御環境において,提案手法は現状のモデルレスRLやメモリ拡張RLアルゴリズムよりも高速に学習でき,長期性能も良好に維持できることを示した。
論文 参考訳(メタデータ) (2022-11-28T09:48:42Z) - Fast Hierarchical Learning for Few-Shot Object Detection [57.024072600597464]
転送学習アプローチは、最近、数ショット検出タスクで有望な結果を得た。
これらのアプローチは、ベース検出器の微調整による破滅的な忘れ込みの問題に悩まされる。
この作業における上記の問題に対処する。
論文 参考訳(メタデータ) (2022-10-10T20:31:19Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - Non-Stationary Delayed Bandits with Intermediate Observations [10.538264213183076]
オンラインレコメンデータシステムは、特に長期的なメトリクスを最適化する場合、フィードバックを受け取るのに長い遅延に直面します。
中間観測による非定常遅延帯域の問題を紹介する。
UCRLに基づく効率的なアルゴリズムを開発し,その性能に対するサブ線形後悔保証を証明した。
論文 参考訳(メタデータ) (2020-06-03T09:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。