論文の概要: Meta-operators for Enabling Parallel Planning Using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.08910v1
- Date: Wed, 13 Mar 2024 19:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:37:06.322046
- Title: Meta-operators for Enabling Parallel Planning Using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いた並列計画支援のためのメタオペレータ
- Authors: Ángel Aso-Mollar, Eva Onaindia,
- Abstract要約: 複数の計画演算子を同時に適用した結果,メタ演算子の概念を導入する。
RL アクション空間にメタ演算子を含めることで、並列計画のような新しい計画視点を RL を用いて解決できることが示される。
- 参考スコア(独自算出の注目度): 0.8287206589886881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in the application of Reinforcement Learning (RL) techniques to AI planning with the aim to come up with general policies. Typically, the mapping of the transition model of AI planning to the state transition system of a Markov Decision Process is established by assuming a one-to-one correspondence of the respective action spaces. In this paper, we introduce the concept of meta-operator as the result of simultaneously applying multiple planning operators, and we show that including meta-operators in the RL action space enables new planning perspectives to be addressed using RL, such as parallel planning. Our research aims to analyze the performance and complexity of including meta-operators in the RL process, concretely in domains where satisfactory outcomes have not been previously achieved using usual generalized planning models. The main objective of this article is thus to pave the way towards a redefinition of the RL action space in a manner that is more closely aligned with the planning perspective.
- Abstract(参考訳): 一般的なポリシーの策定を目的としたAI計画への強化学習(RL)技術の適用に対する関心が高まっている。
典型的には、AI計画の遷移モデルのマルコフ決定過程の状態遷移系へのマッピングは、各アクション空間の1対1対応を仮定することによって確立される。
本稿では、複数の計画演算子を同時に適用した結果、メタ演算子の概念を導入し、RLアクション空間にメタ演算子を含めることで、並列計画のような新しい計画視点をRLで実現可能であることを示す。
本研究の目的は,RLプロセスにメタ演算子を組み込む場合の性能と複雑さ,具体的には,通常の一般化計画モデルを用いて,満足な結果が得られていない領域において,その性能と複雑さを解析することである。
本稿の主な目的は、RLアクション空間の再定義への道を開くことであり、プランニングの観点からより密に整合している。
関連論文リスト
- DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。
提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。
提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-02-04T03:05:55Z) - Parallel Strategies for Best-First Generalized Planning [51.713634067802104]
汎用計画(GP)は、複数の古典的な計画インスタンスを解くことができるアルゴリズムのようなソリューションの自動合成を研究するAIの研究分野である。
現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。
本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
論文 参考訳(メタデータ) (2024-07-31T09:50:22Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Differentiable Spatial Planning using Transformers [87.90709874369192]
本研究では、長距離空間依存を計画して行動を生成する障害マップを与えられた空間計画変換器(SPT)を提案する。
エージェントが地上の真理マップを知らない環境では、エンド・ツー・エンドのフレームワークで事前訓練されたSPTを利用する。
SPTは、操作タスクとナビゲーションタスクの両方のすべてのセットアップにおいて、最先端の差別化可能なプランナーよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T06:48:16Z) - Deliberative Acting, Online Planning and Learning with Hierarchical
Operational Models [5.597986898418404]
AI研究では、アクションの計画は通常、アクションの結果として起こる可能性のあることを抽象的に特定するアクションの記述モデルを使用してきた。
計画されたアクションの実行には、リッチな計算制御構造とクローズドループオンライン意思決定を使用する運用モデルが必要である。
我々は、計画と行動の両方が同じ運用モデルを使用する統合された行動計画システムを実装している。
論文 参考訳(メタデータ) (2020-10-02T14:50:05Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。