論文の概要: Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks
- arxiv url: http://arxiv.org/abs/2408.11300v1
- Date: Wed, 21 Aug 2024 03:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:38:57.988116
- Title: Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks
- Title(参考訳): ロングホライゾンゴール要求タスクのためのスキルステップ抽象化によるオフライン政策学習
- Authors: Donghoon Kim, Minjong Yoo, Honguk Woo,
- Abstract要約: 本稿では,長期GCタスクに対処するためのオフラインGCポリシー学習フレームワークを提案する。
このフレームワークでは、GCポリシーは、データ上のスキルステップの抽象化の漸進的なモデリングと合わせて、オフラインで徐々に学習される。
我々は,GCポリシーを多岐にわたる長期的目標に適応させる上で,GLvSAフレームワークの優位性と効率性を実証する。
- 参考スコア(独自算出の注目度): 7.122367852177223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-conditioned (GC) policy learning often faces a challenge arising from the sparsity of rewards, when confronting long-horizon goals. To address the challenge, we explore skill-based GC policy learning in offline settings, where skills are acquired from existing data and long-horizon goals are decomposed into sequences of near-term goals that align with these skills. Specifically, we present an `offline GC policy learning via skill-step abstraction' framework (GLvSA) tailored for tackling long-horizon GC tasks affected by goal distribution shifts. In the framework, a GC policy is progressively learned offline in conjunction with the incremental modeling of skill-step abstractions on the data. We also devise a GC policy hierarchy that not only accelerates GC policy learning within the framework but also allows for parameter-efficient fine-tuning of the policy. Through experiments with the maze and Franka kitchen environments, we demonstrate the superiority and efficiency of our GLvSA framework in adapting GC policies to a wide range of long-horizon goals. The framework achieves competitive zero-shot and few-shot adaptation performance, outperforming existing GC policy learning and skill-based methods.
- Abstract(参考訳): ゴール条件付き(GC)政策学習は、長い水平目標に直面する場合、報酬の空間性から生じる課題に直面することが多い。
この課題に対処するために、既存のデータからスキルを取得し、長期目標をこれらのスキルに合わせた短期目標のシーケンスに分解する、オフライン環境でのスキルベースのGCポリシ学習について検討する。
具体的には,目標分布のシフトによって影響を受ける長期GCタスクに対処するための 'オフラインGCポリシー学習' フレームワーク (GLvSA) を提案する。
このフレームワークでは、GCポリシーは、データ上のスキルステップの抽象化の漸進的なモデリングと合わせて、オフラインで徐々に学習される。
また、GCポリシー階層を考案し、フレームワーク内でのGCポリシー学習を加速するだけでなく、パラメータ効率の良いポリシーの微調整を可能にします。
迷路やフランカのキッチン環境での実験を通じて、幅広い長期目標にGCポリシーを適用する上で、GLvSAフレームワークの優位性と効率性を実証した。
このフレームワークは、競争力のあるゼロショットと少数ショットの適応性能を実現し、既存のGCポリシー学習やスキルベースの手法よりも優れています。
関連論文リスト
- Offline Hierarchical Reinforcement Learning via Inverse Optimization [23.664330010602708]
OHIOは、階層的ポリシーのオフライン強化学習のためのフレームワークである。
エンド・ツー・エンドのRL法を大幅に上回り、ロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-10T14:00:21Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。