論文の概要: Goal-Conditioned Reinforcement Learning with Imagined Subgoals
- arxiv url: http://arxiv.org/abs/2107.00541v1
- Date: Thu, 1 Jul 2021 15:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 17:06:06.140682
- Title: Goal-Conditioned Reinforcement Learning with Imagined Subgoals
- Title(参考訳): 擬似サブゴールを用いたゴールコンディション強化学習
- Authors: Elliot Chane-Sane, Cordelia Schmid, Ivan Laptev
- Abstract要約: 我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 89.67840168694259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-conditioned reinforcement learning endows an agent with a large variety
of skills, but it often struggles to solve tasks that require more temporally
extended reasoning. In this work, we propose to incorporate imagined subgoals
into policy learning to facilitate learning of complex tasks. Imagined subgoals
are predicted by a separate high-level policy, which is trained simultaneously
with the policy and its critic. This high-level policy predicts intermediate
states halfway to the goal using the value function as a reachability metric.
We don't require the policy to reach these subgoals explicitly. Instead, we use
them to define a prior policy, and incorporate this prior into a KL-constrained
policy iteration scheme to speed up and regularize learning. Imagined subgoals
are used during policy learning, but not during test time, where we only apply
the learned policy. We evaluate our approach on complex robotic navigation and
manipulation tasks and show that it outperforms existing methods by a large
margin.
- Abstract(参考訳): ゴール条件強化学習は、様々なスキルを持つエージェントを提供するが、時間的に拡張された推論を必要とするタスクを解決するのに苦労することが多い。
本研究では,複雑なタスクの学習を容易にするために,想像上のサブゴールを政策学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
この高レベル政策は、値関数を到達可能性指標として、目標の中間状態を予測する。
これらのサブゴールに明示的に到達するためのポリシーは必要ありません。
代わりに、それを使って事前ポリシーを定義し、それをKL制約のポリシー反復スキームに組み込んで学習のスピードアップと規則化を行います。
実証されたサブゴールは、ポリシ学習で使用されるが、テスト期間中には使用されない。
複雑なロボットナビゲーションおよび操作タスクに対するアプローチを評価し,既存の手法を大差で上回っていることを示す。
関連論文リスト
- Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Lifelong Policy Gradient Learning of Factored Policies for Faster
Training Without Forgetting [26.13332231423652]
本稿では, 生涯関数近似器を直接, ポリシー勾配を用いて訓練する, 生涯ポリシー勾配学習のための新しい方法を提案する。
我々は,我々のアルゴリズムが単一タスクや生涯学習ベースラインよりも高速に学習し,より良いポリシーに収束することを示す。
論文 参考訳(メタデータ) (2020-07-14T13:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。