論文の概要: Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.05043v1
- Date: Sun, 11 Apr 2021 16:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:50:45.259667
- Title: Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習のための本質的動機づけによる目標条件政策の学習
- Authors: Jinxin Liu, Donglin Wang, Qiangxing Tian, Zhengyu Chen
- Abstract要約: 目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
- 参考スコア(独自算出の注目度): 9.014110264448371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is of significance for an agent to learn a widely applicable and
general-purpose policy that can achieve diverse goals including images and text
descriptions. Considering such perceptually-specific goals, the frontier of
deep reinforcement learning research is to learn a goal-conditioned policy
without hand-crafted rewards. To learn this kind of policy, recent works
usually take as the reward the non-parametric distance to a given goal in an
explicit embedding space. From a different viewpoint, we propose a novel
unsupervised learning approach named goal-conditioned policy with intrinsic
motivation (GPIM), which jointly learns both an abstract-level policy and a
goal-conditioned policy. The abstract-level policy is conditioned on a latent
variable to optimize a discriminator and discovers diverse states that are
further rendered into perceptually-specific goals for the goal-conditioned
policy. The learned discriminator serves as an intrinsic reward function for
the goal-conditioned policy to imitate the trajectory induced by the
abstract-level policy. Experiments on various robotic tasks demonstrate the
effectiveness and efficiency of our proposed GPIM method which substantially
outperforms prior techniques.
- Abstract(参考訳): エージェントは、画像やテキストの記述を含む多様な目標を達成できる、広く応用され汎用的な政策を学ぶことが重要である。
このような知覚特異的な目標を考えると、深層強化学習研究の最前線は、手作りの報酬なしで目標条件の政策を学ぶことである。
この種の方針を学ぶために、近年の作品は、通常、明示的な埋め込み空間において与えられた目標に対する非パラメトリック距離の報奨となる。
異なる視点から,本質的なモチベーションを伴う目標条件政策(GPIM)という,新たな教師なし学習手法を提案し,抽象レベル政策と目標条件政策の両方を共同で学習する。
抽象レベルポリシーは、識別器を最適化するために潜在変数に条件付けされ、ゴール条件付きポリシーの知覚特異的な目標にさらに反映される多様な状態を発見する。
学習された判別器は、抽象レベルポリシーによって誘導される軌道を模倣するゴール条件付きポリシーの本質的な報酬関数として機能する。
各種ロボットタスクの実験により,従来の手法よりも優れたGPIM法の有効性と効率性を示した。
関連論文リスト
- Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文 参考訳(メタデータ) (2023-08-11T13:33:59Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Provable Representation Learning for Imitation with Contrastive Fourier
Features [27.74988221252854]
オフライン体験データセットを用いて低次元の状態表現を学習する。
主要な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないことである。
我々は、目標ポリシーと最大様態で訓練された低次元ポリシーとの性能差を上限とする表現学習目標を導出する。
論文 参考訳(メタデータ) (2021-05-26T00:31:30Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z) - Off-Policy Deep Reinforcement Learning with Analogous Disentangled
Exploration [33.25932244741268]
オフ政治強化学習(英: Off-policy reinforcement learning、RL)は、経験のサンプルを収集する別の政策を実行することで報酬政策を学ぶことに関心がある。
前者の方針は報われているが、(ほとんどの場合、決定論的な)非表現的であり、後者の課題では、対照的に、ガイド付きかつ効果的な探索を提供する表現的政策が必要である。
本稿では,この問題を緩和するために,Analogous Disentangled Actor-Critic (ADAC)を提案する。
論文 参考訳(メタデータ) (2020-02-25T08:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。