論文の概要: Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.00499v1
- Date: Sun, 2 May 2021 16:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 01:36:35.427247
- Title: Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習のためのCurious ExplorationとReturn-based Memory Restoration
- Authors: Saeed Tafazzol, Erfan Fathi, Mahdi Rezaei, Ehsan Asali
- Abstract要約: 本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
- 参考スコア(独自算出の注目度): 2.3226893628361682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward engineering and designing an incentive reward function are non-trivial
tasks to train agents in complex environments. Furthermore, an inaccurate
reward function may lead to a biased behaviour which is far from an efficient
and optimised behaviour. In this paper, we focus on training a single agent to
score goals with binary success/failure reward function in Half Field Offense
domain. As the major advantage of this research, the agent has no presumption
about the environment which means it only follows the original formulation of
reinforcement learning agents. The main challenge of using such a reward
function is the high sparsity of positive reward signals. To address this
problem, we use a simple prediction-based exploration strategy (called Curious
Exploration) along with a Return-based Memory Restoration (RMR) technique which
tends to remember more valuable memories. The proposed method can be utilized
to train agents in environments with fairly complex state and action spaces.
Our experimental results show that many recent solutions including our baseline
method fail to learn and perform in complex soccer domain. However, the
proposed method can converge easily to the nearly optimal behaviour. The video
presenting the performance of our trained agent is available at
http://bit.ly/HFO_Binary_Reward.
- Abstract(参考訳): 報酬工学と報酬関数の設計は、複雑な環境でエージェントを訓練するための非自明なタスクである。
さらに、不正確な報酬関数は、効率的で最適化された行動に遠く及ばない偏った行動につながる可能性がある。
本稿では,ハーフフィールドオフセンス領域における2連成功/障害報酬関数を用いた目標達成のための単一エージェントのトレーニングに焦点をあてる。
この研究の主な利点として、このエージェントは環境についての仮定がなく、これは強化学習エージェントの元々の定式化にのみ従うことを意味する。
このような報酬関数を使用する主な課題は、ポジティブな報酬信号のスパース性が高いことである。
この問題に対処するために、我々は単純な予測に基づく探索戦略(Curious Exploration)と、より貴重な記憶を記憶する傾向にあるReturn-based Memory Restoration(RMR)技術を使用する。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
実験の結果,ベースライン法を含む最近のソリューションの多くは,複雑なサッカー領域において学習や実行に失敗していることがわかった。
しかし,提案手法は最適動作に容易に収束することができる。
トレーニングされたエージェントのパフォーマンスを示すビデオは、http://bit.ly/hfo_binary_rewardで閲覧できます。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Embedding Contextual Information through Reward Shaping in Multi-Agent
Learning: A Case Study from Google Football [0.0]
我々は、報酬関数に文脈情報を埋め込むことで、新たな報酬形成手法を作成する。
Google Research Football (GRF) 環境でこれを実証する。
実験結果から,報奨信号の少ない環境下でのトレーニングエージェントのための最新のMARLアルゴリズムに,報奨形法が有用であることが確認された。
論文 参考訳(メタデータ) (2023-03-25T10:21:13Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Transferable Reward Learning by Dynamics-Agnostic Discriminator Ensemble [8.857776147129464]
専門家によるデモンストレーションから報酬関数を復元することは、強化学習における根本的な問題である。
本研究では、状態行動と状態のみの報酬関数の両方を学習できる動的非依存型識別器・アンサンブル報酬学習法を提案する。
論文 参考訳(メタデータ) (2022-06-01T05:16:39Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。