論文の概要: Walk the Random Walk: Learning to Discover and Reach Goals Without
Supervision
- arxiv url: http://arxiv.org/abs/2206.11733v1
- Date: Thu, 23 Jun 2022 14:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:10:51.976527
- Title: Walk the Random Walk: Learning to Discover and Reach Goals Without
Supervision
- Title(参考訳): ランダムウォーク:スーパービジョンなしでゴールの発見と解決を学ぶ
- Authors: Lina Mezghani, Sainbayar Sukhbaatar, Piotr Bojanowski, Karteek Alahari
- Abstract要約: 本稿では,外部の報酬やドメイン知識を伴わずに,そのような目標条件付きエージェントを訓練するための新しい手法を提案する。
我々はランダムウォークを用いて、2つの状態間の類似性を予測する到達可能性ネットワークを訓練する。
この到達可能性ネットワークは、様々なバランスの取れた過去の観測を含むゴールメモリの構築に使用される。
すべてのコンポーネントは、エージェントが新しい目標を発見して学習するにつれて、トレーニングを通じて更新される。
- 参考スコア(独自算出の注目度): 21.72567982148215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a diverse set of skills by interacting with an environment without
any external supervision is an important challenge. In particular, obtaining a
goal-conditioned agent that can reach any given state is useful in many
applications. We propose a novel method for training such a goal-conditioned
agent without any external rewards or any domain knowledge. We use random walk
to train a reachability network that predicts the similarity between two
states. This reachability network is then used in building goal memory
containing past observations that are diverse and well-balanced. Finally, we
train a goal-conditioned policy network with goals sampled from the goal memory
and reward it by the reachability network and the goal memory. All the
components are kept updated throughout training as the agent discovers and
learns new goals. We apply our method to a continuous control navigation and
robotic manipulation tasks.
- Abstract(参考訳): 外部の監督なしに環境と対話することで多様なスキルを学ぶことは重要な課題である。
特に、任意の状態に到達可能な目標条件エージェントを取得することは、多くのアプリケーションで有用である。
本稿では,外部報酬やドメイン知識を必要とせず,目標条件エージェントを訓練するための新しい手法を提案する。
2つの状態間の類似性を予測できる到達可能性ネットワークをトレーニングするためにランダムウォークを使用する。
この到達可能性ネットワークは、様々なバランスの取れた過去の観測を含むゴールメモリの構築に使用される。
最後に,目標メモリから抽出した目標を到達可能性ネットワークと目標メモリで報奨する,目標条件付きポリシネットワークをトレーニングする。
エージェントが新しい目標を発見し、学習すると、すべてのコンポーネントがトレーニングを通じて更新される。
本手法を連続制御ナビゲーションおよびロボット操作タスクに適用する。
関連論文リスト
- Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Generating Automatic Curricula via Self-Supervised Active Domain
Randomization [11.389072560141388]
我々は、目標と環境のカリキュラムを共同で学習するために、セルフプレイフレームワークを拡張します。
本手法は, エージェントがより困難なタスクや環境変化から学習する, ゴールタスクの複合カリキュラムを生成する。
本結果から,各環境に設定された目標の難易度とともに,環境の難易度を両立させるカリキュラムが,テスト対象の目標指向タスクに実用的利益をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-02-18T22:45:29Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。