論文の概要: Solving Sokoban with backward reinforcement learning
- arxiv url: http://arxiv.org/abs/2105.01904v1
- Date: Wed, 5 May 2021 07:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 18:27:22.301479
- Title: Solving Sokoban with backward reinforcement learning
- Title(参考訳): 後方強化学習によるソコバンの解法
- Authors: Yaron Shoham, Gal Elidan
- Abstract要約: いくつかのパズルでは、目標の近くで使用する戦略は、初期の効果的な戦略とはかなり異なる場合があります。
一般的なアプローチは、前方探索と後方探索の両方を適用し、両者を整合させることである。
我々は、強化学習フレームワークの中で、このアイデアを一歩前進させるアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.314901648855819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In some puzzles, the strategy we need to use near the goal can be quite
different from the strategy that is effective earlier on, e.g. due to a smaller
branching factor near the exit state in a maze. A common approach in these
cases is to apply both a forward and a backward search, and to try and align
the two.
In this work we propose an approach that takes this idea a step forward,
within a reinforcement learning (RL) framework. Training a traditional
forward-looking agent using RL can be difficult because rewards are often
sparse, e.g. given only at the goal. Instead, we first train a backward-looking
agent with a simple relaxed goal. We then augment the state representation of
the puzzle with straightforward hint features that are extracted from the
behavior of that agent. Finally, we train a forward looking agent with this
informed augmented state.
We demonstrate that this simple "access" to partial backward plans leads to a
substantial performance boost. On the challenging domain of the Sokoban puzzle,
our RL approach substantially surpasses the best learned solvers that
generalize over levels, and is competitive with SOTA performance of the best
highly-crafted solution. Impressively, we achieve these results while learning
from only a small number of practice levels and using simple RL techniques.
- Abstract(参考訳): いくつかのパズルでは、ゴールの近くで使う必要がある戦略は、例えば、より早く有効になる戦略とは大きく異なる。
迷路の出口状態に近い 分岐因子が小さいためです
これらの場合の一般的なアプローチは、前方探索と後方探索の両方を適用し、両者を整合させることである。
本研究では、強化学習(RL)フレームワークにおいて、このアイデアを一歩前進させるアプローチを提案する。
RLを用いた従来の前方エージェントのトレーニングは、報酬が希少であるため、難しい場合がある。
ゴールでのみ与えられる。
代わりに、私たちはまず、シンプルなリラックスしたゴールで後ろ向きのエージェントを訓練します。
次に,そのエージェントの動作から抽出した直感的なヒント特徴を用いて,パズルの状態表現を強化する。
最後に,この情報を付加した前向きエージェントを訓練する。
この単純な"アクセス"が部分的な後方計画に到達することで、パフォーマンスが大幅に向上することを示す。
ソコバンパズルの挑戦的領域において、我々のRLアプローチは、レベルを超越した最高の学習解法をはるかに上回り、最高の高度工数解のSOTA性能と競合する。
印象的に、少数の実践レベルから学習し、シンプルなRL技術を用いてこれらの結果を得る。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Inverse Reinforcement Learning without Reinforcement Learning [40.7783129322142]
逆強化学習(IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的としている。
従来のIRL法では、サブルーチンとしてハード強化学習問題を繰り返し解決する必要がある。
我々は、RLの難解な問題を繰り返し解くために、模倣学習の容易な問題を減らした。
論文 参考訳(メタデータ) (2023-03-26T04:35:53Z) - Understanding Hindsight Goal Relabeling Requires Rethinking Divergence
Minimization [10.854471763126117]
マルチゴール強化学習(RL)の基礎技術として,隠れたゴールレバーベリングが注目されている。
そこで本研究では,このような関係を説明する目標達成のための統一的な目標を策定する。
近年のゴール条件付き行動クローニングの進歩にもかかわらず、マルチゴールQ-ラーニングは依然としてBCライクな手法より優れていることが判明した。
論文 参考訳(メタデータ) (2022-09-26T22:00:27Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning
Instances [30.32386551923329]
本稿では,1つの難題を解決するためのカリキュラム駆動型学習手法を提案する。
タスクの硬さの滑らかさが最終学習結果にどのように影響するかを示す。
われわれのアプローチは、これまでの最先端のSokobanソルバには及ばないプランを明らかにすることができる。
論文 参考訳(メタデータ) (2021-10-03T00:44:50Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Distilling Reinforcement Learning Tricks for Video Games [8.097870074875729]
強化学習(RL)研究は、異なる領域にまたがって適用できる一般的なソリューションに焦点を当てている。
近年の研究では、RLを効果的に使用するために必要なエンジニアリングステップ(トリック)が欠落していることが多い。
我々は、最先端の結果からトリックの説明を蒸留し、これらのトリックが標準の深層Q学習エージェントをどのように改善できるかを調査する。
論文 参考訳(メタデータ) (2021-07-01T19:02:38Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。