論文の概要: Goal Reasoning by Selecting Subgoals with Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2012.12335v1
- Date: Tue, 22 Dec 2020 20:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:32:24.415447
- Title: Goal Reasoning by Selecting Subgoals with Deep Q-Learning
- Title(参考訳): 深層q学習によるサブゴール選択による目標推論
- Authors: Carlos N\'u\~nez-Molina, Vladislav Nikolov, Ignacio Vellido, Juan
Fern\'andez-Olivares
- Abstract要約: CNNベースのゴール選択モジュールを設計し、標準のビデオゲーム環境でトレーニングしました。
一般化能力を測定するため,異なるゲーム(計画領域)とレベル(計画問題)でテストした。
- 参考スコア(独自算出の注目度): 1.189955933770711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we propose a goal reasoning method which learns to select
subgoals with Deep Q-Learning in order to decrease the load of a planner when
faced with scenarios with tight time restrictions, such as online execution
systems. We have designed a CNN-based goal selection module and trained it on a
standard video game environment, testing it on different games (planning
domains) and levels (planning problems) to measure its generalization
abilities. When comparing its performance with a satisfying planner, the
results obtained show both approaches are able to find plans of good quality,
but our method greatly decreases planning time. We conclude our approach can be
successfully applied to different types of domains (games), and shows good
generalization properties when evaluated on new levels (problems) of the same
game (domain).
- Abstract(参考訳): 本研究では,オンライン実行システムのような厳密な制約を伴うシナリオに直面した場合のプランナーの負荷を軽減するために,深いq学習によるサブゴール選択を学習する目標推論手法を提案する。
我々は、CNNベースのゴール選択モジュールを設計し、標準的なゲーム環境上で学習し、異なるゲーム(計画領域)とレベル(計画問題)でテストし、その一般化能力を測定する。
その結果, 満足度の高いプランナと比較すると, いずれの手法も良好な品質のプランを見つけることができるが, 提案手法は計画時間を大幅に短縮する。
我々のアプローチは異なる種類のドメイン(ゲーム)にうまく適用でき、同じゲーム(ドメイン)の新しいレベル(問題)で評価した場合、優れた一般化特性を示します。
関連論文リスト
- Learning to Select Goals in Automated Planning with Deep-Q Learning [7.373617024876726]
本稿では,Deep Q-Learning を用いたサブゴール選択を学習するモジュールを組み込んだ計画と実行アーキテクチャを提案する。
我々はこのアーキテクチャを、インテリジェントなシステムアプリケーションのための標準的なテストベッドとして使用されるビデオゲーム環境で訓練した。
論文 参考訳(メタデータ) (2024-06-20T23:02:44Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Visual scoping operations for physical assembly [0.0]
本稿では,次のサブゴールとして空間領域を交互に定義することで,計画と行動のインターリーブを行う視覚スコープを提案する。
ビジュアルスコーピングは,計算コストのごく一部しか必要とせず,サブゴールプランナーに匹敵するタスク性能を実現する。
論文 参考訳(メタデータ) (2021-06-10T10:50:35Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。