論文の概要: Solving Hard AI Planning Instances Using Curriculum-Driven Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.02689v1
- Date: Thu, 4 Jun 2020 08:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:17:29.329482
- Title: Solving Hard AI Planning Instances Using Curriculum-Driven Deep
Reinforcement Learning
- Title(参考訳): カリキュラム駆動深層強化学習によるハードai計画インスタンスの解法
- Authors: Dieqiao Feng, Carla P. Gomes, and Bart Selman
- Abstract要約: SokobanはPSPACE完全計画タスクであり、現在のAIプランナーにとって最も難しいドメインの1つである。
カリキュラム駆動型手法で強化した深層強化学習に基づくアプローチは,1日以内のハードインスタンスを初めて解決する手法である。
- 参考スコア(独自算出の注目度): 31.92282114603962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in general AI planning, certain domains remain
out of reach of current AI planning systems. Sokoban is a PSPACE-complete
planning task and represents one of the hardest domains for current AI
planners. Even domain-specific specialized search methods fail quickly due to
the exponential search complexity on hard instances. Our approach based on deep
reinforcement learning augmented with a curriculum-driven method is the first
one to solve hard instances within one day of training while other modern
solvers cannot solve these instances within any reasonable time limit. In
contrast to prior efforts, which use carefully handcrafted pruning techniques,
our approach automatically uncovers domain structure. Our results reveal that
deep RL provides a promising framework for solving previously unsolved AI
planning problems, provided a proper training curriculum can be devised.
- Abstract(参考訳): 一般的なAI計画の大幅な進歩にもかかわらず、一部のドメインは現在のAI計画システムの範囲外である。
SokobanはPSPACE完全計画タスクであり、現在のAIプランナーにとって最も難しいドメインの1つである。
ドメイン固有の特別な検索メソッドでさえ、ハードインスタンスの指数関数的検索の複雑さのために急速に失敗する。
カリキュラム駆動型手法で強化された深層強化学習に基づくアプローチは、訓練の1日以内にハードインスタンスを解く最初の方法であり、他の現代の問題解決者は妥当な時間制限でこれらのインスタンスを解けない。
手作りプルーニング技術を用いた従来の取り組みとは対照的に,本手法はドメイン構造を自動的に解明する。
我々の結果によると、Deep RLは、未解決のAI計画問題を解決するための有望なフレームワークを提供する。
関連論文リスト
- Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Heuristic Search Planning with Deep Neural Networks using Imitation,
Attention and Curriculum Learning [1.0323063834827413]
本稿では、最適計画模倣により、状態空間の遠い部分に関連する能力を学ぶためのネットワークモデルを提案する。
難易度の増加に伴う問題の創出における手法の限界に対処するために,新たに解決した問題インスタンスをトレーニングセットに追加するカリキュラム学習の利用を実演する。
論文 参考訳(メタデータ) (2021-12-03T14:01:16Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning
Instances [30.32386551923329]
本稿では,1つの難題を解決するためのカリキュラム駆動型学習手法を提案する。
タスクの硬さの滑らかさが最終学習結果にどのように影響するかを示す。
われわれのアプローチは、これまでの最先端のSokobanソルバには及ばないプランを明らかにすることができる。
論文 参考訳(メタデータ) (2021-10-03T00:44:50Z) - Fixed Priority Global Scheduling from a Deep Learning Perspective [0.2578242050187029]
本稿ではまず,FPGS問題に対する事前作業を通じて,リアルタイムタスクスケジューリングにDeep Learningを適用する方法について述べる。
次に、いくつかの現実的で複雑なFPGSシナリオに対して、Deep Learning導入の可能な一般化について議論する。
論文 参考訳(メタデータ) (2020-12-05T10:52:33Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。