論文の概要: Off-Policy Reinforcement Learning with Delayed Rewards
- arxiv url: http://arxiv.org/abs/2106.11854v1
- Date: Tue, 22 Jun 2021 15:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:48:33.899503
- Title: Off-Policy Reinforcement Learning with Delayed Rewards
- Title(参考訳): 遅延リワードによるオフポリティ強化学習
- Authors: Beining Han, Zhizhou Ren, Zuofan Wu, Yuan Zhou, Jian Peng
- Abstract要約: 多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
- 参考スコア(独自算出の注目度): 16.914712720033524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study deep reinforcement learning (RL) algorithms with delayed rewards. In
many real-world tasks, instant rewards are often not readily accessible or even
defined immediately after the agent performs actions. In this work, we first
formally define the environment with delayed rewards and discuss the challenges
raised due to the non-Markovian nature of such environments. Then, we introduce
a general off-policy RL framework with a new Q-function formulation that can
handle the delayed rewards with theoretical convergence guarantees. For
practical tasks with high dimensional state spaces, we further introduce the
HC-decomposition rule of the Q-function in our framework which naturally leads
to an approximation scheme that helps boost the training efficiency and
stability. We finally conduct extensive experiments to demonstrate the superior
performance of our algorithms over the existing work and their variants.
- Abstract(参考訳): 遅延報酬を用いた深部強化学習(RL)アルゴリズムについて検討した。
多くの現実世界のタスクでは、即時報酬はエージェントがアクションを実行した後すぐにはアクセスできないか、あるいは定義すらできない。
本研究では,まず,報酬の遅れを伴う環境を形式的に定義し,そのような環境の非マルコフ的性質によって生じる課題について議論する。
そこで我々は,理論収束保証とともに遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを提案する。
高次元状態空間を持つ実用的課題に対して、我々はさらに、トレーニング効率と安定性を高めるための近似スキームを自然に導くフレームワークにおいて、q関数のhc分解規則を導入する。
最終的に我々は、既存の作業とそのバリエーションよりもアルゴリズムの優れた性能を示すために、広範な実験を行う。
関連論文リスト
- Boosting Long-Delayed Reinforcement Learning with Auxiliary
Short-Delayed Task [23.934684259593823]
本稿では,長時間のタスクにおける学習を高速化する新しい補助遅延強化学習(AD-RL)を提案する。
具体的には、AD-RLは、短遅延タスクにおける値関数を学習し、長遅延タスクにおけるブートストラップとポリシー改善技術でそれを利用する。
論文 参考訳(メタデータ) (2024-02-05T16:11:03Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Computationally Efficient Reinforcement Learning: Targeted Exploration
leveraging Simple Rules [1.124958340749622]
本稿では,このようなルールを組み込むための,連続的アクター批判フレームワークの簡易かつ効果的な修正を提案する。
室内温度制御のケーススタディでは、エージェントは古典的なエージェントよりも最大6~7倍の速さで優れたポリシーに収束することができる。
論文 参考訳(メタデータ) (2022-11-30T02:24:42Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - Computational Benefits of Intermediate Rewards for Hierarchical Planning [42.579256546135866]
中間報酬を用いると、成功政策を見つける際の計算の複雑さが減少するが、最短経路を見つけることは保証されない。
また、Q-learningや他の人気のある深層RLアルゴリズムを用いて、MiniGrid環境に関する広範な実験を行い、理論結果を裏付ける。
論文 参考訳(メタデータ) (2021-07-08T16:39:13Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。