論文の概要: Generalization of Compositional Tasks with Logical Specification via Implicit Planning
- arxiv url: http://arxiv.org/abs/2410.09686v2
- Date: Sat, 2 Nov 2024 17:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 21:39:30.347334
- Title: Generalization of Compositional Tasks with Logical Specification via Implicit Planning
- Title(参考訳): インシシット計画による論理的仕様による構成課題の一般化
- Authors: Duo Xu, Faramarz Fekri,
- Abstract要約: 本稿では,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを提案する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
- 参考スコア(独自算出の注目度): 14.46490764849977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we address the challenge of learning generalizable policies for compositional tasks defined by logical specifications. These tasks consist of multiple temporally extended sub-tasks. Due to the sub-task inter-dependencies and sparse reward issue in long-horizon tasks, existing reinforcement learning (RL) approaches, such as task-conditioned and goal-conditioned policies, continue to struggle with slow convergence and sub-optimal performance in generalizing to compositional tasks. To overcome these limitations, we introduce a new hierarchical RL framework that enhances the efficiency and optimality of task generalization. At the high level, we present an implicit planner specifically designed for generalizing compositional tasks. This planner selects the next sub-task and estimates the multi-step return for completing the remaining task to complete from the current state. It learns a latent transition model and performs planning in the latent space by using a graph neural network (GNN). Subsequently, the high-level planner's selected sub-task guides the low-level agent to effectively handle long-horizon tasks, while the multi-step return encourages the low-level policy to account for future sub-task dependencies, enhancing its optimality. We conduct comprehensive experiments to demonstrate the framework's advantages over previous methods in terms of both efficiency and optimality.
- Abstract(参考訳): 本研究では,論理的仕様によって定義された構成的タスクに対する一般化可能なポリシーを学習する上での課題に対処する。
これらのタスクは、複数の時間的に拡張されたサブタスクから構成される。
長期タスクにおけるサブタスク間依存性とスパース報酬の問題により、タスク条件やゴール条件ポリシといった既存の強化学習(RL)アプローチは、構成タスクを一般化する上で、緩やかな収束とサブ最適パフォーマンスに苦戦し続けている。
これらの制約を克服するために,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを導入する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
プランナーは次のサブタスクを選択し、残りのタスクを完了して現在の状態から完了するためのマルチステップリターンを推定する。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
その後、高レベルプランナーが選択したサブタスクは、低レベルエージェントを誘導して、長期タスクを効果的に処理し、マルチステップリターンは、将来のサブタスク依存性を考慮し、その最適性を向上する。
我々は、効率性と最適性の両方の観点から、従来の手法よりもフレームワークの利点を実証する包括的な実験を行う。
関連論文リスト
- Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
textbfDiffusion textbfPlannerを学習する2段階フレームワークである textbfSODP を提案する。
事前学習段階では,マルチタスクトラジェクトリの多目的分布をモデル化し,一般的な計画能力を抽出する基礎拡散プランナを訓練する。
そして、下流タスクに対して、拡散プランナーを高速に洗練するために、タスク固有の報酬を伴うRLベースの微調整を採用する。
論文 参考訳(メタデータ) (2024-09-30T05:05:37Z) - Giving each task what it needs -- leveraging structured sparsity for tailored multi-task learning [4.462334751640166]
マルチタスク学習(MTL)フレームワークでは、各タスクは、低レベルから高レベルの属性まで、異なる特徴表現を要求する。
この研究は、構造化された空間を利用して個々のタスクの特徴選択を洗練し、マルチタスクシナリオにおける全てのタスクのパフォーマンスを向上させるレイヤdマルチタスクモデルを導入する。
論文 参考訳(メタデータ) (2024-06-05T08:23:38Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - POMRL: No-Regret Learning-to-Plan with Increasing Horizons [43.693739167594295]
オンラインメタ強化学習環境におけるモデル不確実性の下での計画課題について検討する。
本稿では,タスク間の基盤構造をメタラーニングし,タスクごとの計画を立てるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-30T03:09:45Z) - Generalizing LTL Instructions via Future Dependent Options [7.8578244861940725]
本稿では,学習効率と最適性を向上した新しいマルチタスクアルゴリズムを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,サブゴール列に条件付きマルチステップ関数を訓練することを提案する。
3つの異なる領域の実験において、提案アルゴリズムにより訓練されたエージェントの一般化能力を評価する。
論文 参考訳(メタデータ) (2022-12-08T21:44:18Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。