論文の概要: Imitating Graph-Based Planning with Goal-Conditioned Policies
- arxiv url: http://arxiv.org/abs/2303.11166v1
- Date: Mon, 20 Mar 2023 14:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 14:58:34.400440
- Title: Imitating Graph-Based Planning with Goal-Conditioned Policies
- Title(参考訳): ゴール条件ポリシーによるグラフベースの計画の模倣
- Authors: Junsu Kim, Younggyo Seo, Sungsoo Ahn, Kyunghwan Son, Jinwoo Shin
- Abstract要約: 本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
- 参考スコア(独自算出の注目度): 72.61631088613048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, graph-based planning algorithms have gained much attention to solve
goal-conditioned reinforcement learning (RL) tasks: they provide a sequence of
subgoals to reach the target-goal, and the agents learn to execute
subgoal-conditioned policies. However, the sample-efficiency of such RL schemes
still remains a challenge, particularly for long-horizon tasks. To address this
issue, we present a simple yet effective self-imitation scheme which distills a
subgoal-conditioned policy into the target-goal-conditioned policy. Our
intuition here is that to reach a target-goal, an agent should pass through a
subgoal, so target-goal- and subgoal- conditioned policies should be similar to
each other. We also propose a novel scheme of stochastically skipping executed
subgoals in a planned path, which further improves performance. Unlike prior
methods that only utilize graph-based planning in an execution phase, our
method transfers knowledge from a planner along with a graph into policy
learning. We empirically show that our method can significantly boost the
sample-efficiency of the existing goal-conditioned RL methods under various
long-horizon control tasks.
- Abstract(参考訳): 近年、グラフベースの計画アルゴリズムは目標条件付き強化学習(RL)タスクの解決に多くの注目を集めており、目標目標に到達するための一連のサブゴールを提供し、エージェントはサブゴール条件付きポリシーの実行を学ぶ。
しかしながら、そのようなrlスキームのサンプル効率は、特に長いホリゾンタスクでは依然として課題である。
この問題に対処するため,本研究では,下位条件政策を目標条件政策に蒸留する,単純かつ効果的な自己模倣方式を提案する。
ここでの直感では、ターゲットゴールに到達するには、エージェントがサブゴールを通過する必要があるので、ターゲットゴールとサブゴールの条件付きポリシーは互いに似ているべきです。
また,提案手法では,実行されたサブゴールを計画経路で確率的にスキップする手法を提案する。
実行フェーズでグラフベースの計画のみを利用する従来の手法とは異なり、本手法は計画者から知識をグラフとともにポリシー学習へ転送する。
提案手法は, 目標条件付きRL法のサンプル効率を大幅に向上させることができることを示す。
関連論文リスト
- Probabilistic Subgoal Representations for Hierarchical Reinforcement learning [16.756888009396462]
目標条件付き階層的強化学習において、ハイレベルポリシーは、低レベルポリシーが到達するためのサブゴールを指定する。
既存の方法では、状態空間から潜在サブゴール空間への決定論的マッピングを提供するサブゴール表現を採用している。
本稿では,潜在サブゴアル空間に先行するGPを用いて,サブゴアル表現関数上の後部分布を学習する。
論文 参考訳(メタデータ) (2024-06-24T15:09:22Z) - GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。