論文の概要: Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning
- arxiv url: http://arxiv.org/abs/2307.10846v1
- Date: Thu, 20 Jul 2023 13:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 13:00:08.606324
- Title: Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning
- Title(参考訳): 絡み合いに基づく到達可能性計画を用いたゴールコンディション強化学習
- Authors: Zhifeng Qian and Mingyu You and Hongjun Zhou and Xuanhui Xu and Bin He
- Abstract要約: 本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 14.370384505230597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-Conditioned Reinforcement Learning (GCRL) can enable agents to
spontaneously set diverse goals to learn a set of skills. Despite the excellent
works proposed in various fields, reaching distant goals in temporally extended
tasks remains a challenge for GCRL. Current works tackled this problem by
leveraging planning algorithms to plan intermediate subgoals to augment GCRL.
Their methods need two crucial requirements: (i) a state representation space
to search valid subgoals, and (ii) a distance function to measure the
reachability of subgoals. However, they struggle to scale to high-dimensional
state space due to their non-compact representations. Moreover, they cannot
collect high-quality training data through standard GC policies, which results
in an inaccurate distance function. Both affect the efficiency and performance
of planning and policy learning. In the paper, we propose a goal-conditioned RL
algorithm combined with Disentanglement-based Reachability Planning (REPlan) to
solve temporally extended tasks. In REPlan, a Disentangled Representation
Module (DRM) is proposed to learn compact representations which disentangle
robot poses and object positions from high-dimensional observations in a
self-supervised manner. A simple REachability discrimination Module (REM) is
also designed to determine the temporal distance of subgoals. Moreover, REM
computes intrinsic bonuses to encourage the collection of novel states for
training. We evaluate our REPlan in three vision-based simulation tasks and one
real-world task. The experiments demonstrate that our REPlan significantly
outperforms the prior state-of-the-art methods in solving temporally extended
tasks.
- Abstract(参考訳): 目標条件強化学習(gcrl)は、エージェントが様々な目標を自発的に設定してスキルのセットを学ぶことを可能にする。
様々な分野で提案された優れた成果にもかかわらず、時間的に拡張されたタスクで遠い目標に達することは、GCRLにとって課題である。
現在の作業では、計画アルゴリズムを利用して中間部分ゴールを計画し、GCRLを増強することでこの問題に対処している。
彼らの方法には2つの重要な要件が必要です
(i)有効なサブゴールを検索する状態表現空間、及び
(ii)サブゴールの到達可能性を測定する距離関数。
しかし、彼らは非コンパクトな表現のために高次元の状態空間にスケールするのに苦労する。
さらに、標準GCポリシを通じて高品質なトレーニングデータを収集できないため、不正確な距離関数が生じる。
どちらも計画と政策学習の効率と性能に影響する。
本稿では,目標条件付きrlアルゴリズムと異方性に基づく到達可能性計画(replan)を組み合わせた時間的拡張タスクの解法を提案する。
再計画において, ロボットの姿勢と物体の位置を自己教師ありで観察するコンパクト表現を学習するために, drm(disentangled representation module)が提案されている。
単純なReachability discrimination Module (REM) も、サブゴールの時間的距離を決定するように設計されている。
さらに、REMは固有のボーナスを計算して、トレーニングのための新しい状態の収集を促進する。
我々は3つの視覚に基づくシミュレーションタスクと1つの現実世界タスクでREPlanを評価した。
実験の結果,REPlanは時間的に拡張されたタスクを解く上で,従来の最先端手法よりも大幅に優れていた。
関連論文リスト
- Probabilistic Subgoal Representations for Hierarchical Reinforcement learning [16.756888009396462]
目標条件付き階層的強化学習において、ハイレベルポリシーは、低レベルポリシーが到達するためのサブゴールを指定する。
既存の方法では、状態空間から潜在サブゴール空間への決定論的マッピングを提供するサブゴール表現を採用している。
本稿では,潜在サブゴアル空間に先行するGPを用いて,サブゴアル表現関数上の後部分布を学習する。
論文 参考訳(メタデータ) (2024-06-24T15:09:22Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。