論文の概要: Optimism and Delays in Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.07615v2
- Date: Thu, 6 Apr 2023 13:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 18:31:28.398840
- Title: Optimism and Delays in Episodic Reinforcement Learning
- Title(参考訳): エピソード強化学習における最適化と遅延
- Authors: Benjamin Howson, Ciara Pike-Burke, Sarah Filippi
- Abstract要約: 理論的観点から, エピソード強化学習における遅延フィードバックの影響について検討した。
提案手法は,状態数,アクション数,エピソード長,予測遅延数,アルゴリズム依存定数などを含む加法的項によって,後悔が増すことを示す。
- 参考スコア(独自算出の注目度): 5.349852254138085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are many algorithms for regret minimisation in episodic reinforcement
learning. This problem is well-understood from a theoretical perspective,
providing that the sequences of states, actions and rewards associated with
each episode are available to the algorithm updating the policy immediately
after every interaction with the environment. However, feedback is almost
always delayed in practice. In this paper, we study the impact of delayed
feedback in episodic reinforcement learning from a theoretical perspective and
propose two general-purpose approaches to handling the delays. The first
involves updating as soon as new information becomes available, whereas the
second waits before using newly observed information to update the policy. For
the class of optimistic algorithms and either approach, we show that the regret
increases by an additive term involving the number of states, actions, episode
length, the expected delay and an algorithm-dependent constant. We empirically
investigate the impact of various delay distributions on the regret of
optimistic algorithms to validate our theoretical results.
- Abstract(参考訳): エピソディック強化学習には後悔の最小化のための多くのアルゴリズムがある。
この問題は理論的な観点からよく理解されており、各エピソードに関連する状態、行動、報酬のシーケンスが、環境とのインタラクションの直後にポリシーを更新するアルゴリズムで利用可能である。
しかし、フィードバックはほとんど常に遅れている。
本稿では,エピソジック強化学習における遅延フィードバックの影響を理論的に検討し,遅延に対処するための2つの汎用的アプローチを提案する。
第1は、新しい情報が利用可能になったらすぐに更新するが、第2は、新しく観測された情報を使用してポリシーを更新するのを待つ。
楽観的アルゴリズムのクラスといずれのアプローチにおいても,提案手法は,状態数,動作数,エピソード長,予測遅延数,アルゴリズム依存定数を含む加法項によって,後悔が増大することを示す。
種々の遅延分布が楽観的アルゴリズムの後悔に及ぼす影響を実験的に検討し,理論結果の検証を行った。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Biased Dueling Bandits with Stochastic Delayed Feedback [6.167074802065416]
遅延を伴う状況に対処するアルゴリズムを2つ提案する。
完全遅延分布情報を必要とする第1のアルゴリズムは,遅延のない場合の遅延帯域問題に対する最適後悔境界を達成できる。
第2のアルゴリズムは、分布が不明な状況に最適化されるが、遅延の期待値のみが利用可能である。
論文 参考訳(メタデータ) (2024-08-26T19:49:12Z) - Reinforcement Learning from Delayed Observations via World Models [10.298219828693489]
強化学習環境では、エージェントはそれらを取るとすぐに行動の効果についてのフィードバックを受ける。
実際には、この仮定は物理的制約のために当てはまらない可能性があり、学習アルゴリズムの性能に大きな影響を及ぼす可能性がある。
本稿では、過去の観測と学習のダイナミクスを統合することに成功している世界モデルを活用して、観測遅延を処理することを提案する。
論文 参考訳(メタデータ) (2024-03-18T23:18:27Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Deep Feedback Inverse Problem Solver [141.26041463617963]
逆問題に対する効率的で効果的で汎用的なアプローチを提案する。
我々は、フォワードプロセスが提供するフィードバック信号を活用し、反復的な更新モデルを学ぶ。
私たちのアプローチは前もってのプロセスに制限がなく、事前の知識も必要ありません。
論文 参考訳(メタデータ) (2021-01-19T16:49:06Z) - Multi-Agent Online Optimization with Delays: Asynchronicity, Adaptivity,
and Optimism [33.116006446428756]
遅延と非同期性を考慮したマルチエージェントオンライン学習問題の研究を行った。
エージェントレベルとネットワークレベルの両方で、最適な後悔の境界を持つ適応学習戦略を導き出します。
論文 参考訳(メタデータ) (2020-12-21T18:55:55Z) - Reinforcement Learning with Random Delays [14.707955337702943]
後方視における軌道断片の部分的再サンプリングにより、オフ・ポリティクスの多段階値推定が可能となることを示す。
この原理を適用し,遅延のある環境において,ソフト・アクタ・クライブに基づくアルゴリズムである遅延補正アクタ・クライブ(DCAC)を導出する。
論文 参考訳(メタデータ) (2020-10-06T18:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。