論文の概要: Potential-based Reward Shaping in Sokoban
- arxiv url: http://arxiv.org/abs/2109.05022v1
- Date: Fri, 10 Sep 2021 06:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-19 01:03:12.334935
- Title: Potential-based Reward Shaping in Sokoban
- Title(参考訳): ソコバンにおけるポテンシャルベースリワード形成
- Authors: Zhao Yang, Mike Preuss, Aske Plaat
- Abstract要約: 本研究では,ソコバンにおける報酬形成の潜在関数を探索アルゴリズム(A*)で自動生成できるかどうかを検討する。
その結果,字型報酬関数による学習は,スクラッチから学習するよりも速いことがわかった。
その結果,距離関数はソコバンに適した関数である可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.563631490799427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to solve sparse-reward reinforcement learning problems is difficult,
due to the lack of guidance towards the goal. But in some problems, prior
knowledge can be used to augment the learning process. Reward shaping is a way
to incorporate prior knowledge into the original reward function in order to
speed up the learning. While previous work has investigated the use of expert
knowledge to generate potential functions, in this work, we study whether we
can use a search algorithm(A*) to automatically generate a potential function
for reward shaping in Sokoban, a well-known planning task. The results showed
that learning with shaped reward function is faster than learning from scratch.
Our results indicate that distance functions could be a suitable function for
Sokoban. This work demonstrates the possibility of solving multiple instances
with the help of reward shaping. The result can be compressed into a single
policy, which can be seen as the first phrase towards training a general policy
that is able to solve unseen instances.
- Abstract(参考訳): 目標へのガイダンスが不足しているため,スパース・リワード強化学習の問題解決は困難である。
しかし、いくつかの問題では、事前知識は学習プロセスを強化するのに使うことができる。
リワード・シェーピング(Reward shaping)は、学習をスピードアップするために、事前知識を元の報酬関数に組み込む方法である。
従来の研究は,潜在的な機能を生成するための専門家知識の利用について検討してきたが,本研究では探索アルゴリズム(A*)を用いて,よく知られた計画課題であるソコバンの報酬形成機能を自動的に生成できるかどうかを検討した。
その結果,字型報酬関数による学習は,スクラッチから学習するよりも速いことがわかった。
その結果,距離関数はソコバンに適した関数であることが示唆された。
この研究は、報酬形成の助けを借りて複数のインスタンスを解決する可能性を示している。
結果は単一のポリシーに圧縮され、目に見えないインスタンスを解決できる一般的なポリシーをトレーニングするための最初のフレーズと見なすことができる。
関連論文リスト
- Automated Feature Selection for Inverse Reinforcement Learning [7.278033100480175]
逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。
本稿では,基本関数を用いて特徴の候補セットを作成する手法を提案する。
専門家のポリシーを捉えた報酬関数を回収することで、アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-22T10:05:21Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Knowledge accumulating: The general pattern of learning [5.174379158867218]
現実世界のタスクを解決するには、タスク固有の機能に合うようにアルゴリズムを調整する必要があります。
一つのアルゴリズムは、どのように改善しても、密集したフィードバックタスクや、特定のスパースなフィードバックタスクだけを解くことができる。
本稿ではまず,スパースフィードバックがアルゴリズムのパーファマンスにどのように影響するかを解析し,その上で,スパースフィードバック問題を解決するために知識を蓄積する方法を説明するパターンを提案する。
論文 参考訳(メタデータ) (2021-08-09T12:41:28Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Transfer Learning and Curriculum Learning in Sokoban [5.563631490799427]
従来の知識がソコバンタスクの学習をいかに改善するかを示す。
実際に,簡単なタスクから複雑なタスクまで,カリキュラム学習がソコバンでどのように機能するかを示す。
論文 参考訳(メタデータ) (2021-05-25T07:01:32Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Reward Propagation Using Graph Convolutional Networks [61.32891095232801]
本稿では,グラフ表現学習のアイデアを活用した潜在機能学習フレームワークを提案する。
我々のアプローチは、強化学習の確率論的推論と組み合わせて、重要な要素として使用するグラフ畳み込みネットワークに依存している。
論文 参考訳(メタデータ) (2020-10-06T04:38:16Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。