論文の概要: Stein Variational Goal Generation For Reinforcement Learning in Hard
Exploration Problems
- arxiv url: http://arxiv.org/abs/2206.06719v1
- Date: Tue, 14 Jun 2022 10:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 23:40:31.471702
- Title: Stein Variational Goal Generation For Reinforcement Learning in Hard
Exploration Problems
- Title(参考訳): 強み探索問題における強化学習のためのstein変分目標生成
- Authors: Nicolas Castanet, Sylvain Lamprier, Olivier Sigaud
- Abstract要約: マルチゴール強化学習は近年,多くの研究関心を集めている。
エージェントが現在の能力にトレーニングタスクを適応させることで学習を支援するために,Stein Variational Goal Generation (SVGG)を提案する。
目標空間における成功カバレッジの観点から,本手法の性能を実測問題に対する最近の最先端のRL法と比較した。
- 参考スコア(独自算出の注目度): 18.62133925594957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-goal Reinforcement Learning has recently attracted a large amount of
research interest. By allowing experience to be shared between related training
tasks, this setting favors generalization for new tasks at test time, whenever
some smoothness exists in the considered representation space of goals.
However, in settings with discontinuities in state or goal spaces (e.g. walls
in a maze), a majority of goals are difficult to reach, due to the sparsity of
rewards in the absence of expert knowledge. This implies hard exploration, for
which some curriculum of goals must be discovered, to help agents learn by
adapting training tasks to their current capabilities. Building on recent
automatic curriculum learning techniques for goal-conditioned policies, we
propose a novel approach: Stein Variational Goal Generation (SVGG), which seeks
at preferably sampling new goals in the zone of proximal development of the
agent, by leveraging a learned model of its abilities, and a goal distribution
modeled as particles in the exploration space. Our approach relies on Stein
Variational Gradient Descent to dynamically attract the goal sampling
distribution in areas of appropriate difficulty. We demonstrate the
performances of the approach, in terms of success coverage in the goal space,
compared to recent state-of-the-art RL methods for hard exploration problems.
- Abstract(参考訳): マルチゴール強化学習は近年,多くの研究関心を集めている。
関連するトレーニングタスク間で経験を共有できるようにすることで、この設定は、検討された目標の表現空間にスムーズさが存在する場合、テスト時に新しいタスクを一般化することを好む。
しかし、状態や目標空間(迷路の壁など)における不連続な設定では、専門家の知識が欠如しているため、ゴールの大部分が到達し難い。
これは、エージェントが現在の能力にトレーニングタスクを適用することで学ぶのを助けるために、いくつかの目標のカリキュラムを見つけなければならない、厳しい探索を意味する。
本研究では,近年のゴールコンディショニング政策の自動カリキュラム学習手法に基づいて,エージェントの近位開発領域における新たな目標を好ましくはサンプリングすることを目指すstein variational goal generation (svgg) と,その能力の学習モデルと,探索空間における粒子としてモデル化された目標分布を提案する。
本手法は,適切な難易度領域において動的に目標サンプリング分布を引き付けるために,スタイン変分勾配降下に依存する。
我々は,このアプローチの性能をゴール空間における成功カバレッジの観点から示し,最近の困難な探索問題に対する最先端のrl手法と比較した。
関連論文リスト
- ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Generating Automatic Curricula via Self-Supervised Active Domain
Randomization [11.389072560141388]
我々は、目標と環境のカリキュラムを共同で学習するために、セルフプレイフレームワークを拡張します。
本手法は, エージェントがより困難なタスクや環境変化から学習する, ゴールタスクの複合カリキュラムを生成する。
本結果から,各環境に設定された目標の難易度とともに,環境の難易度を両立させるカリキュラムが,テスト対象の目標指向タスクに実用的利益をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-02-18T22:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。