論文の概要: Generalization of Compositional Tasks with Logical Specification via Implicit Planning
- arxiv url: http://arxiv.org/abs/2410.09686v2
- Date: Sat, 2 Nov 2024 17:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 21:39:30.347334
- Title: Generalization of Compositional Tasks with Logical Specification via Implicit Planning
- Title(参考訳): インシシット計画による論理的仕様による構成課題の一般化
- Authors: Duo Xu, Faramarz Fekri,
- Abstract要約: 本稿では,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを提案する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
- 参考スコア(独自算出の注目度): 14.46490764849977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we address the challenge of learning generalizable policies for compositional tasks defined by logical specifications. These tasks consist of multiple temporally extended sub-tasks. Due to the sub-task inter-dependencies and sparse reward issue in long-horizon tasks, existing reinforcement learning (RL) approaches, such as task-conditioned and goal-conditioned policies, continue to struggle with slow convergence and sub-optimal performance in generalizing to compositional tasks. To overcome these limitations, we introduce a new hierarchical RL framework that enhances the efficiency and optimality of task generalization. At the high level, we present an implicit planner specifically designed for generalizing compositional tasks. This planner selects the next sub-task and estimates the multi-step return for completing the remaining task to complete from the current state. It learns a latent transition model and performs planning in the latent space by using a graph neural network (GNN). Subsequently, the high-level planner's selected sub-task guides the low-level agent to effectively handle long-horizon tasks, while the multi-step return encourages the low-level policy to account for future sub-task dependencies, enhancing its optimality. We conduct comprehensive experiments to demonstrate the framework's advantages over previous methods in terms of both efficiency and optimality.
- Abstract(参考訳): 本研究では,論理的仕様によって定義された構成的タスクに対する一般化可能なポリシーを学習する上での課題に対処する。
これらのタスクは、複数の時間的に拡張されたサブタスクから構成される。
長期タスクにおけるサブタスク間依存性とスパース報酬の問題により、タスク条件やゴール条件ポリシといった既存の強化学習(RL)アプローチは、構成タスクを一般化する上で、緩やかな収束とサブ最適パフォーマンスに苦戦し続けている。
これらの制約を克服するために,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを導入する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
プランナーは次のサブタスクを選択し、残りのタスクを完了して現在の状態から完了するためのマルチステップリターンを推定する。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
その後、高レベルプランナーが選択したサブタスクは、低レベルエージェントを誘導して、長期タスクを効果的に処理し、マルチステップリターンは、将来のサブタスク依存性を考慮し、その最適性を向上する。
我々は、効率性と最適性の両方の観点から、従来の手法よりもフレームワークの利点を実証する包括的な実験を行う。
関連論文リスト
- Anticipate & Act : Integrating LLMs and Classical Planning for Efficient Task Execution in Household Environments [16.482992646001996]
我々は,これらの課題を共同で達成する行動列を計算し,家庭内課題を予測するための枠組みを開発する。
今後の課題を考慮しないシステムと比較して,実行時間の31%削減を実証する。
論文 参考訳(メタデータ) (2025-02-04T07:31:55Z) - DHP: Discrete Hierarchical Planning for Hierarchical Reinforcement Learning Agents [2.1438108757511958]
我々の重要な貢献は、従来の距離に基づくアプローチに代わる離散階層的計画法(DHP)である。
提案手法の理論的基礎を提供し,その効果を広範な経験的評価を通じて実証する。
提案手法は,25室環境における長期視覚計画タスクにおいて,成功率と平均エピソード長において,従来のベンチマークよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-02-04T03:05:55Z) - Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
拡散モデルはマルチタスクの軌跡をモデル化する能力を示した。
既存のマルチタスクプランナやポリシーは、通常、マルチタスクの模倣によるタスク固有のデモンストレーションや、タスク固有の報酬ラベルを必要とする。
本稿では,タスク非依存の準最適軌道を含む大規模劣等データを活用する多目的拡散プランナを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:05:37Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - POMRL: No-Regret Learning-to-Plan with Increasing Horizons [43.693739167594295]
オンラインメタ強化学習環境におけるモデル不確実性の下での計画課題について検討する。
本稿では,タスク間の基盤構造をメタラーニングし,タスクごとの計画を立てるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-30T03:09:45Z) - Generalizing LTL Instructions via Future Dependent Options [7.8578244861940725]
本稿では,学習効率と最適性を向上した新しいマルチタスクアルゴリズムを提案する。
将来のサブゴールを満たす報酬をより効率的に伝達するために,サブゴール列に条件付きマルチステップ関数を訓練することを提案する。
3つの異なる領域の実験において、提案アルゴリズムにより訓練されたエージェントの一般化能力を評価する。
論文 参考訳(メタデータ) (2022-12-08T21:44:18Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。