論文の概要: GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.04388v2
- Date: Wed, 7 Jul 2021 11:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 22:12:34.333857
- Title: GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning
- Title(参考訳): GRIMGEP:視覚深層強化学習におけるロバストゴールサンプリング学習の進歩
- Authors: Grgur Kova\v{c}, Adrien Laversanne-Finot, Pierre-Yves Oudeyer
- Abstract要約: 本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
- 参考スコア(独自算出の注目度): 21.661530291654692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing agents, capable of learning autonomously a wide range of skills is
critical in order to increase the scope of reinforcement learning. It will both
increase the diversity of learned skills and reduce the burden of manually
designing reward functions for each skill. Self-supervised agents, setting
their own goals, and trying to maximize the diversity of those goals have shown
great promise towards this end. However, a currently known limitation of agents
trying to maximize the diversity of sampled goals is that they tend to get
attracted to noise or more generally to parts of the environments that cannot
be controlled (distractors). When agents have access to predefined goal
features or expert knowledge, absolute Learning Progress (ALP) provides a way
to distinguish between regions that can be controlled and those that cannot.
However, those methods often fall short when the agents are only provided with
raw sensory inputs such as images. In this work we extend those concepts to
unsupervised image-based goal exploration. We propose a framework that allows
agents to autonomously identify and ignore noisy distracting regions while
searching for novelty in the learnable regions to both improve overall
performance and avoid catastrophic forgetting. Our framework can be combined
with any state-of-the-art novelty seeking goal exploration approaches. We
construct a rich 3D image based environment with distractors. Experiments on
this environment show that agents using our framework successfully identify
interesting regions of the environment, resulting in drastically improved
performances. The source code is available at
https://sites.google.com/view/grimgep.
- Abstract(参考訳): 強化学習の範囲を増やすためには,多種多様なスキルを自律的に学習できるエージェントの設計が不可欠である。
学習スキルの多様性を高め、各スキルに対して手動で報酬関数を設計する際の負担を軽減する。
自己監督エージェント、自身の目標の設定、そしてそれらの目標の多様性を最大化しようとする試みは、この目標に向けて大きな約束を示しています。
しかし、現在知られている、サンプリングされた目標の多様性を最大化しようとするエージェントの制限は、ノイズに惹かれる傾向にあり、一般に制御できない環境の一部に惹かれる傾向にある(ディストラクタ)。
エージェントが事前に定義された目標機能や専門家の知識にアクセスできる場合、絶対学習進歩(ALP)は、コントロールできる領域とできない領域を区別する方法を提供する。
しかし、これらの方法は、画像などの生の感覚入力しか提供されない場合、しばしば不足する。
本研究では、これらの概念を教師なし画像に基づくゴール探索に拡張する。
本研究では,学習可能な領域における新規性を探りながら,ノイズの発散する領域を自律的に識別・無視する枠組みを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
我々は,気晴らしのあるリッチな3次元画像環境を構築した。
この環境での実験により,我々のフレームワークを用いたエージェントが環境の興味深い領域の同定に成功し,性能が大幅に向上したことが示された。
ソースコードはhttps://sites.google.com/view/grimgepで入手できる。
関連論文リスト
- Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Stein Variational Goal Generation for adaptive Exploration in Multi-Goal
Reinforcement Learning [18.62133925594957]
マルチゴール強化学習では、エージェントは関連するトレーニングタスク間で経験を共有することができ、テスト時により一般化される。
本研究は,エージェントの中間的難易度を目標とするStein Variational Goal Generation (SVGG)を提案する。
目標の分布は、スタイン変分勾配Descentを用いて適切な困難領域に惹きつけられる粒子でモデル化される。
論文 参考訳(メタデータ) (2022-06-14T10:03:17Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Learning Object-Centered Autotelic Behaviors with Graph Neural Networks [10.149376933379036]
人間は、学習したいくつかのスキルにアクセスでき、それが新しい状況に迅速に適応する。
人工知能では、本来の目的を表現し、設定するために動機づけられたオートテリックエージェントは、有望なスキル適応能力を示す。
本研究では,4種類のグラフニューラルネットワークポリシー表現と2種類の目標空間を用いて,自律エージェントの異なる実装について検討する。
論文 参考訳(メタデータ) (2022-04-11T14:19:04Z) - Direct then Diffuse: Incremental Unsupervised Skill Discovery for State
Covering and Goal Reaching [98.25207998996066]
我々は、スキル発見のための相互情報フレームワークを構築し、カバレッジ指向のトレードオフに対応するためにUPSIDEを導入します。
いくつかのナビゲーションおよび制御環境において、UPSIDEが学んだスキルが、既存のベースラインよりもスパース・リワードな下流タスクをどのように解決するかを説明する。
論文 参考訳(メタデータ) (2021-10-27T14:22:19Z) - Discovering and Achieving Goals via World Models [61.95437238374288]
この問題に対する統一的なソリューションであるLatent Explorer Achiever (LEXA)を紹介する。
LEXAはイメージ入力から世界モデルを学び、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する。
教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。
論文 参考訳(メタデータ) (2021-10-18T17:59:58Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Action and Perception as Divergence Minimization [43.75550755678525]
アクションパーセプション・ディバージェンス(Action Perception Divergence)は、エンボディエージェントの可能な目的関数の空間を分類するためのアプローチである。
狭い目的から一般的な目的に到達するスペクトルを示す。
これらのエージェントは、彼らの信念を世界と整合させるのに知覚を使い、行動を使って世界と信念を整合させる。
論文 参考訳(メタデータ) (2020-09-03T16:52:46Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。