論文の概要: Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.00499v1
- Date: Sun, 2 May 2021 16:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 01:36:35.427247
- Title: Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習のためのCurious ExplorationとReturn-based Memory Restoration
- Authors: Saeed Tafazzol, Erfan Fathi, Mahdi Rezaei, Ehsan Asali
- Abstract要約: 本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
- 参考スコア(独自算出の注目度): 2.3226893628361682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward engineering and designing an incentive reward function are non-trivial
tasks to train agents in complex environments. Furthermore, an inaccurate
reward function may lead to a biased behaviour which is far from an efficient
and optimised behaviour. In this paper, we focus on training a single agent to
score goals with binary success/failure reward function in Half Field Offense
domain. As the major advantage of this research, the agent has no presumption
about the environment which means it only follows the original formulation of
reinforcement learning agents. The main challenge of using such a reward
function is the high sparsity of positive reward signals. To address this
problem, we use a simple prediction-based exploration strategy (called Curious
Exploration) along with a Return-based Memory Restoration (RMR) technique which
tends to remember more valuable memories. The proposed method can be utilized
to train agents in environments with fairly complex state and action spaces.
Our experimental results show that many recent solutions including our baseline
method fail to learn and perform in complex soccer domain. However, the
proposed method can converge easily to the nearly optimal behaviour. The video
presenting the performance of our trained agent is available at
http://bit.ly/HFO_Binary_Reward.
- Abstract(参考訳): 報酬工学と報酬関数の設計は、複雑な環境でエージェントを訓練するための非自明なタスクである。
さらに、不正確な報酬関数は、効率的で最適化された行動に遠く及ばない偏った行動につながる可能性がある。
本稿では,ハーフフィールドオフセンス領域における2連成功/障害報酬関数を用いた目標達成のための単一エージェントのトレーニングに焦点をあてる。
この研究の主な利点として、このエージェントは環境についての仮定がなく、これは強化学習エージェントの元々の定式化にのみ従うことを意味する。
このような報酬関数を使用する主な課題は、ポジティブな報酬信号のスパース性が高いことである。
この問題に対処するために、我々は単純な予測に基づく探索戦略(Curious Exploration)と、より貴重な記憶を記憶する傾向にあるReturn-based Memory Restoration(RMR)技術を使用する。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
実験の結果,ベースライン法を含む最近のソリューションの多くは,複雑なサッカー領域において学習や実行に失敗していることがわかった。
しかし,提案手法は最適動作に容易に収束することができる。
トレーニングされたエージェントのパフォーマンスを示すビデオは、http://bit.ly/hfo_binary_rewardで閲覧できます。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Embedding Contextual Information through Reward Shaping in Multi-Agent
Learning: A Case Study from Google Football [0.0]
我々は、報酬関数に文脈情報を埋め込むことで、新たな報酬形成手法を作成する。
Google Research Football (GRF) 環境でこれを実証する。
実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最新のMARLアルゴリズムに,報奨形法が有用であることが確認された。
論文 参考訳(メタデータ) (2023-03-25T10:21:13Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。