論文の概要: Delayed Feedback in Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.07615v1
- Date: Mon, 15 Nov 2021 09:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 01:19:40.667269
- Title: Delayed Feedback in Episodic Reinforcement Learning
- Title(参考訳): エピソード強化学習における遅延フィードバック
- Authors: Benjamin Howson, Ciara Pike-Burke, Sarah Filippi
- Abstract要約: 本研究では,遅延フィードバックがいくつかのアルゴリズムに与える影響について検討した。
ポリシーの更新頻度が低くなると、遅延に対する依存性が改善される可能性があることを示す。
- 参考スコア(独自算出の注目度): 7.154621689269006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are many provably efficient algorithms for episodic reinforcement
learning. However, these algorithms are built under the assumption that the
sequences of states, actions and rewards associated with each episode arrive
immediately, allowing policy updates after every interaction with the
environment. This assumption is often unrealistic in practice, particularly in
areas such as healthcare and online recommendation. In this paper, we study the
impact of delayed feedback on several provably efficient algorithms for regret
minimisation in episodic reinforcement learning. Firstly, we consider updating
the policy as soon as new feedback becomes available. Using this updating
scheme, we show that the regret increases by an additive term involving the
number of states, actions, episode length and the expected delay. This additive
term changes depending on the optimistic algorithm of choice. We also show that
updating the policy less frequently can lead to an improved dependency of the
regret on the delays.
- Abstract(参考訳): エピソディック強化学習には, 十分効率的なアルゴリズムが多数存在する。
しかしながら、これらのアルゴリズムは、各エピソードに関連する状態、行動、報酬のシーケンスが即座に到着し、環境との相互作用のたびにポリシー更新が可能であるという仮定のもとに構築されている。
この仮定は実際、特に医療やオンラインレコメンデーションのような分野では非現実的であることが多い。
本稿では,エピソディック強化学習における後悔を最小限に抑えるために,複数の効果的なアルゴリズムに対する遅延フィードバックの影響について検討する。
まず、新たなフィードバックが得られ次第、ポリシーの更新を検討します。
この更新手法を用いることで,状態数,動作数,エピソード長,予測遅延を含む追加用語によって後悔が増加することを示す。
この加法項は楽観的な選択アルゴリズムによって変化する。
また、ポリシーの更新頻度が低くなると、遅延に対する後悔の依存性が改善されることも示します。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Biased Dueling Bandits with Stochastic Delayed Feedback [6.167074802065416]
遅延を伴う状況に対処するアルゴリズムを2つ提案する。
完全遅延分布情報を必要とする第1のアルゴリズムは,遅延のない場合の遅延帯域問題に対する最適後悔境界を達成できる。
第2のアルゴリズムは、分布が不明な状況に最適化されるが、遅延の期待値のみが利用可能である。
論文 参考訳(メタデータ) (2024-08-26T19:49:12Z) - Reinforcement Learning from Delayed Observations via World Models [10.298219828693489]
強化学習環境では、エージェントはそれらを取るとすぐに行動の効果についてのフィードバックを受ける。
実際には、この仮定は物理的制約のために当てはまらない可能性があり、学習アルゴリズムの性能に大きな影響を及ぼす可能性がある。
本稿では、過去の観測と学習のダイナミクスを統合することに成功している世界モデルを活用して、観測遅延を処理することを提案する。
論文 参考訳(メタデータ) (2024-03-18T23:18:27Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z) - Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity,
and Optimism [33.116006446428756]
遅延と非同期性を考慮したマルチエージェントオンライン学習問題の研究を行った。
エージェントレベルとネットワークレベルの両方で、最適な後悔の境界を持つ適応学習戦略を導き出します。
論文 参考訳(メタデータ) (2020-12-21T18:55:55Z) - Reinforcement Learning with Random Delays [14.707955337702943]
後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。
この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
論文 参考訳(メタデータ) (2020-10-06T18:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。