論文の概要: Delayed Feedback in Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.07615v1
- Date: Mon, 15 Nov 2021 09:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 01:19:40.667269
- Title: Delayed Feedback in Episodic Reinforcement Learning
- Title(参考訳): エピソード強化学習における遅延フィードバック
- Authors: Benjamin Howson, Ciara Pike-Burke, Sarah Filippi
- Abstract要約: 本研究では,遅延フィードバックがいくつかのアルゴリズムに与える影響について検討した。
ポリシーの更新頻度が低くなると、遅延に対する依存性が改善される可能性があることを示す。
- 参考スコア(独自算出の注目度): 7.154621689269006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are many provably efficient algorithms for episodic reinforcement
learning. However, these algorithms are built under the assumption that the
sequences of states, actions and rewards associated with each episode arrive
immediately, allowing policy updates after every interaction with the
environment. This assumption is often unrealistic in practice, particularly in
areas such as healthcare and online recommendation. In this paper, we study the
impact of delayed feedback on several provably efficient algorithms for regret
minimisation in episodic reinforcement learning. Firstly, we consider updating
the policy as soon as new feedback becomes available. Using this updating
scheme, we show that the regret increases by an additive term involving the
number of states, actions, episode length and the expected delay. This additive
term changes depending on the optimistic algorithm of choice. We also show that
updating the policy less frequently can lead to an improved dependency of the
regret on the delays.
- Abstract(参考訳): エピソディック強化学習には, 十分効率的なアルゴリズムが多数存在する。
しかしながら、これらのアルゴリズムは、各エピソードに関連する状態、行動、報酬のシーケンスが即座に到着し、環境との相互作用のたびにポリシー更新が可能であるという仮定のもとに構築されている。
この仮定は実際、特に医療やオンラインレコメンデーションのような分野では非現実的であることが多い。
本稿では,エピソディック強化学習における後悔を最小限に抑えるために,複数の効果的なアルゴリズムに対する遅延フィードバックの影響について検討する。
まず、新たなフィードバックが得られ次第、ポリシーの更新を検討します。
この更新手法を用いることで,状態数,動作数,エピソード長,予測遅延を含む追加用語によって後悔が増加することを示す。
この加法項は楽観的な選択アルゴリズムによって変化する。
また、ポリシーの更新頻度が低くなると、遅延に対する後悔の依存性が改善されることも示します。
関連論文リスト
- Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - When, Why and How Much? Adaptive Learning Rate Scheduling by Refinement [51.12097770185634]
実際に使用される学習率のスケジュールは、理論によって推奨されるものとはほとんど似ていない。
我々はこの理論と実践的ギャップの多くを閉じ、その結果、新しい問題適応型学習率スケジュールを導き出すことができる。
論文 参考訳(メタデータ) (2023-10-11T19:16:35Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Online Reinforcement Learning with Uncertain Episode Lengths [31.55023147921953]
本稿では,各エピソードの長さが分布から引き出されるとき,エピソード強化学習の一般的な枠組みについて考察する。
この新たな一般割引による後悔の最小化は、不確実な長さの後悔と等価であることを示す。
また, エピソード長の不確かさが不明な場合でも, 同様の後悔境界が得られることを示す。
論文 参考訳(メタデータ) (2023-02-07T17:12:49Z) - Delayed Feedback in Generalised Linear Bandits Revisited [5.349852254138085]
一般化線形包帯における遅延報酬の現象を理論的に研究する。
遅延フィードバックに対する楽観的なアルゴリズムの自然な適応は、遅延に対するペナルティが地平線から独立であるような後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T23:35:01Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z) - Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity,
and Optimism [33.116006446428756]
遅延と非同期性を考慮したマルチエージェントオンライン学習問題の研究を行った。
エージェントレベルとネットワークレベルの両方で、最適な後悔の境界を持つ適応学習戦略を導き出します。
論文 参考訳(メタデータ) (2020-12-21T18:55:55Z) - Reinforcement Learning with Random Delays [14.707955337702943]
後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。
この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
論文 参考訳(メタデータ) (2020-10-06T18:39:23Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。