論文の概要: A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning
Instances
- arxiv url: http://arxiv.org/abs/2110.00898v1
- Date: Sun, 3 Oct 2021 00:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:36:20.728920
- Title: A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning
Instances
- Title(参考訳): ハード・ソコバン・プランニング・インスタンスを解き明かす新しいカリキュラム戦略
- Authors: Dieqiao Feng, Carla P. Gomes, Bart Selman
- Abstract要約: 本稿では,1つの難題を解決するためのカリキュラム駆動型学習手法を提案する。
タスクの硬さの滑らかさが最終学習結果にどのように影響するかを示す。
われわれのアプローチは、これまでの最先端のSokobanソルバには及ばないプランを明らかにすることができる。
- 参考スコア(独自算出の注目度): 30.32386551923329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, we have witnessed tremendous progress in deep reinforcement
learning (RL) for tasks such as Go, Chess, video games, and robot control.
Nevertheless, other combinatorial domains, such as AI planning, still pose
considerable challenges for RL approaches. The key difficulty in those domains
is that a positive reward signal becomes {\em exponentially rare} as the
minimal solution length increases. So, an RL approach loses its training
signal. There has been promising recent progress by using a curriculum-driven
learning approach that is designed to solve a single hard instance. We present
a novel {\em automated} curriculum approach that dynamically selects from a
pool of unlabeled training instances of varying task complexity guided by our
{\em difficulty quantum momentum} strategy. We show how the smoothness of the
task hardness impacts the final learning results. In particular, as the size of
the instance pool increases, the ``hardness gap'' decreases, which facilitates
a smoother automated curriculum based learning process. Our automated
curriculum approach dramatically improves upon the previous approaches. We show
our results on Sokoban, which is a traditional PSPACE-complete planning problem
and presents a great challenge even for specialized solvers. Our RL agent can
solve hard instances that are far out of reach for any previous
state-of-the-art Sokoban solver. In particular, our approach can uncover plans
that require hundreds of steps, while the best previous search methods would
take many years of computing time to solve such instances. In addition, we show
that we can further boost the RL performance with an intricate coupling of our
automated curriculum approach with a curiosity-driven search strategy and a
graph neural net representation.
- Abstract(参考訳): 近年,Go,Chess,ビデオゲーム,ロボット制御といったタスクにおいて,深層強化学習(RL)が著しく進歩しているのを目の当たりにしている。
それでも、AI計画のような他の組合せ領域は、まだRLアプローチにかなりの課題を提起している。
これらの領域における重要な困難は、最小解長が増加するにつれて正の報酬信号が指数関数的に希薄になることである。
したがって、RLアプローチはトレーニング信号を失う。
単一のハードインスタンスを解決するために設計されたカリキュラム駆動学習アプローチを使用することで、近年は有望な進歩を遂げている。
我々は,我々の量子運動量戦略によって導かれる様々なタスク複雑性のラベル付けされていないトレーニングインスタンスのプールから動的に選択する,新しいカリキュラム手法を提案する。
タスクの難易度が最終的な学習結果にどのように影響するかを示す。
特に、インスタンスプールのサイズが大きくなるにつれて、‘硬度ギャップ’が減少し、よりスムーズな自動カリキュラムベースの学習プロセスが実現します。
私たちの自動カリキュラムアプローチは、以前のアプローチを劇的に改善します。
本稿では,従来のpspace完全計画問題であるsokobanについて,特殊解法においても大きな課題を示す。
我々のRLエージェントは、これまでの最先端のSokobanソルバには届かない難問を解決できる。
特に,提案手法では,数百ステップを要する計画を明らかにすることができるが,従来の検索手法では,そのような問題を解くのに長年の計算時間を要する。
さらに、キュリオシティ駆動の探索戦略とグラフニューラルネット表現との複雑な組み合わせにより、RL性能をさらに向上させることができることを示す。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Curriculum Learning in Job Shop Scheduling using Reinforcement Learning [0.3867363075280544]
深層強化学習(DRL)は、困難な事例に対応するエージェントの計画戦略を動的に調整する。
学習プロセスの設計に,同じ問題サイズ内での難易度の変数を積極的に組み込むことにより,基礎的手法としてのDLRをさらに改善する。
論文 参考訳(メタデータ) (2023-05-17T13:15:27Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - An actor-critic algorithm with policy gradients to solve the job shop
scheduling problem using deep double recurrent agents [1.3812010983144802]
ジョブショップスケジューリング問題(JSSP)に対する深層強化学習手法を提案する。
目的は、ジョブやマシンの数によって異なるJSSPインスタンスのディストリビューションについて学べるgreedyのようなものを構築することである。
予想通り、モデルはある程度は、トレーニングで使用されるものと異なる分布から生じるより大きな問題やインスタンスに一般化することができる。
論文 参考訳(メタデータ) (2021-10-18T07:55:39Z) - Ranking Cost: Building An Efficient and Scalable Circuit Routing Planner
with Evolution-Based Optimization [49.207538634692916]
そこで我々は、効率よくトレーニング可能なルータを形成するための新しい回路ルーティングアルゴリズム、Randing Costを提案する。
提案手法では,A*ルータが適切な経路を見つけるのに役立つコストマップと呼ばれる新しい変数群を導入する。
我々のアルゴリズムはエンドツーエンドで訓練されており、人工データや人間の実演は一切使用しない。
論文 参考訳(メタデータ) (2021-10-08T07:22:45Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Self-Imitation Learning by Planning [3.996275177789895]
模擬学習(IL)により、熟練の知識を伝達することで、ロボットがスキルを素早く習得できます。
長期移動計画タスクでは、ILおよびRLメソッドのデプロイにおける課題は、大規模で広範囲に分散したデータの生成と収集方法である。
本研究では,現在の方針から訪問状態の計画により,実演データを自動収集する自己模倣学習(silp)を提案する。
SILPは、早期強化学習の段階で正常に訪問された状態がグラフ検索ベースのモーションプランナーの衝突のないノードであることに触発されます。
論文 参考訳(メタデータ) (2021-03-25T13:28:38Z) - Solving Hard AI Planning Instances Using Curriculum-Driven Deep
Reinforcement Learning [31.92282114603962]
SokobanはPSPACE完全計画タスクであり、現在のAIプランナーにとって最も難しいドメインの1つである。
カリキュラム駆動型手法で強化した深層強化学習に基づくアプローチは,1日以内のハードインスタンスを初めて解決する手法である。
論文 参考訳(メタデータ) (2020-06-04T08:13:12Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。