論文の概要: Open-Ended Reinforcement Learning with Neural Reward Functions
- arxiv url: http://arxiv.org/abs/2202.08266v1
- Date: Wed, 16 Feb 2022 15:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 14:56:23.023484
- Title: Open-Ended Reinforcement Learning with Neural Reward Functions
- Title(参考訳): 神経報酬機能を用いた拡張強化学習
- Authors: Robert Meier and Asier Mujika
- Abstract要約: 高次元ロボット環境では、ハーフチェエタのフロントフリップやヒューマノイドの片足ランニングなど、幅広い興味深いスキルを学びます。
ピクセルベースのMontezumaのRevenge環境では、我々の手法は最小限の変更でも機能し、アイテムとのインタラクションや多様な場所の訪問に関わる複雑なスキルを学ぶ。
- 参考スコア(独自算出の注目度): 2.4366811507669115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the great success of unsupervised learning in Computer Vision and
Natural Language Processing, the Reinforcement Learning community has recently
started to focus more on unsupervised discovery of skills. Most current
approaches, like DIAYN or DADS, optimize some form of mutual information
objective. We propose a different approach that uses reward functions encoded
by neural networks. These are trained iteratively to reward more complex
behavior. In high-dimensional robotic environments our approach learns a wide
range of interesting skills including front-flips for Half-Cheetah and
one-legged running for Humanoid. In the pixel-based Montezuma's Revenge
environment our method also works with minimal changes and it learns complex
skills that involve interacting with items and visiting diverse locations. A
web version of this paper which shows animations for the different skills is
available in https://as.inf.ethz.ch/research/open_ended_RL/main.html
- Abstract(参考訳): コンピュータビジョンと自然言語処理における教師なし学習の大きな成功にインスパイアされた強化学習コミュニティは、最近、教師なし学習のスキルの発見に重点を置き始めた。
DIAYNやDADSといった現在のアプローチは、ある種の相互情報目的を最適化しています。
ニューラルネットワークで符号化された報酬関数を利用する別のアプローチを提案する。
これらはより複雑な行動に報いるために反復的に訓練される。
高次元ロボット環境では、ハーフチェエタのフロントフリップやヒューマノイドの片足ランニングなど、幅広い興味深いスキルを学びます。
ピクセルベースのMontezumaのRevenge環境では、我々の方法は最小限の変更でも機能し、アイテムとのインタラクションや多様な場所の訪問に関わる複雑なスキルを学ぶ。
異なるスキルのアニメーションを示すweb版がhttps://as.inf.ethz.ch/research/open_ended_rl/main.htmlで利用可能である。
関連論文リスト
- RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Skill Reinforcement Learning and Planning for Open-World Long-Horizon
Tasks [31.084848672383185]
オープンワールド環境におけるマルチタスクエージェントの構築について検討する。
我々は,マルチタスク学習問題を基礎的スキルの学習や,そのスキルの計画に転換する。
提案手法は40種類のMinecraftタスクをこなし,10以上のスキルを順次実行するタスクが多数存在する。
論文 参考訳(メタデータ) (2023-03-29T09:45:50Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Inducing Structure in Reward Learning by Learning Features [31.413656752926208]
本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から複雑な特徴を学習するアルゴリズムを紹介する。
当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。
論文 参考訳(メタデータ) (2022-01-18T16:02:29Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Learning Affordance Landscapes for Interaction Exploration in 3D
Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
論文 参考訳(メタデータ) (2020-08-21T00:29:36Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Learning as Reinforcement: Applying Principles of Neuroscience for More
General Reinforcement Learning Agents [1.0742675209112622]
我々は、生物学的アルゴリズムの計算効率の良い抽象化を組み合わせることによって、実験神経科学の原理に基づいて構築されたアーキテクチャを実装する。
我々のアプローチは、スパイク刺激依存塑性の研究、短期記憶と長期記憶の遷移、および好奇心に対する様々な神経伝達物質の役割に着想を得たものである。
Neurons-in-a-Boxアーキテクチャは、完全に一般化可能な方法で学習することができ、一連の基準やアクションを明示的に最適化することなく、表現を構築し、適用するための効率的な方法を示す。
論文 参考訳(メタデータ) (2020-04-20T04:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。