論文の概要: Learning to Select Goals in Automated Planning with Deep-Q Learning
- arxiv url: http://arxiv.org/abs/2406.14779v1
- Date: Thu, 20 Jun 2024 23:02:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 15:12:21.116698
- Title: Learning to Select Goals in Automated Planning with Deep-Q Learning
- Title(参考訳): ディープラーニング学習による自動計画における目標選択の学習
- Authors: Carlos Núñez-Molina, Juan Fernández-Olivares, Raúl Pérez,
- Abstract要約: 本稿では,Deep Q-Learning を用いたサブゴール選択を学習するモジュールを組み込んだ計画と実行アーキテクチャを提案する。
我々はこのアーキテクチャを、インテリジェントなシステムアプリケーションのための標準的なテストベッドとして使用されるビデオゲーム環境で訓練した。
- 参考スコア(独自算出の注目度): 7.373617024876726
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work we propose a planning and acting architecture endowed with a module which learns to select subgoals with Deep Q-Learning. This allows us to decrease the load of a planner when faced with scenarios with real-time restrictions. We have trained this architecture on a video game environment used as a standard test-bed for intelligent systems applications, testing it on different levels of the same game to evaluate its generalization abilities. We have measured the performance of our approach as more training data is made available, as well as compared it with both a state-of-the-art, classical planner and the standard Deep Q-Learning algorithm. The results obtained show our model performs better than the alternative methods considered, when both plan quality (plan length) and time requirements are taken into account. On the one hand, it is more sample-efficient than standard Deep Q-Learning, and it is able to generalize better across levels. On the other hand, it reduces problem-solving time when compared with a state-of-the-art automated planner, at the expense of obtaining plans with only 9% more actions.
- Abstract(参考訳): 本研究では,Deep Q-Learning を用いたサブゴール選択の学習を行うモジュールを組み込んだ計画と実行アーキテクチャを提案する。
これにより、リアルタイムな制約のあるシナリオに直面した場合、プランナーの負荷を削減できます。
我々は、このアーキテクチャをインテリジェントなシステムアプリケーションのための標準的なテストベッドとして使用したビデオゲーム環境でトレーニングし、その一般化能力を評価するために、同じゲームの異なるレベルでテストした。
我々は、より多くのトレーニングデータが利用可能になるにつれて、我々のアプローチのパフォーマンスを測定し、最先端の古典的プランナーと標準のDeep Q-Learningアルゴリズムを比較した。
その結果,計画品質(計画期間)と時間要件の両方を考慮すると,提案モデルが検討した代替手法よりも優れた性能を示した。
一方、Dep Q-Learningよりもサンプル効率が高く、レベルをまたいだ一般化が可能である。
一方、最先端の自動化プランナーと比較した場合の問題解決時間を短縮し、わずか9%のアクションしか持たないプランの取得を犠牲にしている。
関連論文リスト
- Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Design Automation for Fast, Lightweight, and Effective Deep Learning
Models: A Survey [53.258091735278875]
本調査では,エッジコンピューティングを対象としたディープラーニングモデルの設計自動化技術について述べる。
これは、有効性、軽量性、計算コストの観点からモデルの習熟度を定量化するために一般的に使用される主要なメトリクスの概要と比較を提供する。
この調査は、ディープモデル設計自動化技術の最先端の3つのカテゴリをカバーしている。
論文 参考訳(メタデータ) (2022-08-22T12:12:43Z) - Goal-Space Planning with Subgoal Models [18.43265820052893]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:59:07Z) - Learning to Execute: Efficient Learning of Universal Plan-Conditioned
Policies in Robotics [20.148408520475655]
本稿では,L2E(Learning to Execute)を導入し,概略計画に含まれる情報を活用し,計画に規定されたユニバーサルポリシーを学習する。
我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
論文 参考訳(メタデータ) (2021-11-15T16:58:50Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Goal Reasoning by Selecting Subgoals with Deep Q-Learning [1.189955933770711]
CNNベースのゴール選択モジュールを設計し、標準のビデオゲーム環境でトレーニングしました。
一般化能力を測定するため,異なるゲーム(計画領域)とレベル(計画問題)でテストした。
論文 参考訳(メタデータ) (2020-12-22T20:12:29Z) - Auto-MAP: A DQN Framework for Exploring Distributed Execution Plans for
DNN Workloads [11.646744408920764]
Auto-MAPはワークロードの分散実行計画を探索するフレームワークである。
ディープラーニングモデルのIRレベルの強化学習を通じて、高速な並列化戦略を自動的に発見することができる。
評価の結果,Auto-MAPは複数のNLPおよび畳み込みモデルにおいて,より優れたスループットを実現しつつ,最適解を2時間以内に見つけることができることがわかった。
論文 参考訳(メタデータ) (2020-07-08T12:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。