論文の概要: Learning Guidance Rewards with Trajectory-space Smoothing
- arxiv url: http://arxiv.org/abs/2010.12718v1
- Date: Fri, 23 Oct 2020 23:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:58:41.919513
- Title: Learning Guidance Rewards with Trajectory-space Smoothing
- Title(参考訳): 軌道空間平滑化による学習指導
- Authors: Tanmay Gangwani, Yuan Zhou, Jian Peng
- Abstract要約: 長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
- 参考スコア(独自算出の注目度): 22.456737935789103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term temporal credit assignment is an important challenge in deep
reinforcement learning (RL). It refers to the ability of the agent to attribute
actions to consequences that may occur after a long time interval. Existing
policy-gradient and Q-learning algorithms typically rely on dense environmental
rewards that provide rich short-term supervision and help with credit
assignment. However, they struggle to solve tasks with delays between an action
and the corresponding rewarding feedback. To make credit assignment easier,
recent works have proposed algorithms to learn dense "guidance" rewards that
could be used in place of the sparse or delayed environmental rewards. This
paper is in the same vein -- starting with a surrogate RL objective that
involves smoothing in the trajectory-space, we arrive at a new algorithm for
learning guidance rewards. We show that the guidance rewards have an intuitive
interpretation, and can be obtained without training any additional neural
networks. Due to the ease of integration, we use the guidance rewards in a few
popular algorithms (Q-learning, Actor-Critic, Distributional-RL) and present
results in single-agent and multi-agent tasks that elucidate the benefit of our
approach when the environmental rewards are sparse or delayed.
- Abstract(参考訳): 長期クレジット割り当ては、深層強化学習(rl)において重要な課題である。
これは、長時間の間隔で発生する可能性のある結果に、エージェントがアクションを属性する能力を指す。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、一般的に、豊富な短期監督と信用割当の支援を提供する密集した環境報酬に依存している。
しかし、アクションとそれに対応する報奨フィードバックの間の遅延を伴うタスクの解決に苦労する。
クレジット割り当てを容易にするために、近年の研究では、環境報酬の不足や遅延に代えて使用できる、密集した「誘導」報酬を学習するためのアルゴリズムが提案されている。
この論文は、軌道空間の滑らか化を伴う代理的なRL目標から始まり、ガイダンスの報酬を学習するための新しいアルゴリズムに到達した。
指導報酬は直感的な解釈が可能であり、追加のニューラルネットワークをトレーニングすることなく得られることを示した。
統合の容易さのため、いくつかの一般的なアルゴリズム(Q-learning, Actor-Critic, Distributional-RL)でガイダンス報酬を使用し、環境報酬が不足または遅れた場合のアプローチの利点を解明する単一エージェントおよび複数エージェントタスクで結果を示す。
関連論文リスト
- Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Computational Benefits of Intermediate Rewards for Hierarchical Planning [42.579256546135866]
中間報酬を用いると、成功政策を見つける際の計算の複雑さが減少するが、最短経路を見つけることは保証されない。
また、Q-learningや他の人気のある深層RLアルゴリズムを用いて、MiniGrid環境に関する広範な実験を行い、理論結果を裏付ける。
論文 参考訳(メタデータ) (2021-07-08T16:39:13Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Learning Intrinsic Symbolic Rewards in Reinforcement Learning [7.101885582663675]
低次元のシンボル木の形で高密度報酬を発見する方法を提案する。
得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。