論文の概要: Simple Sensor Intentions for Exploration
- arxiv url: http://arxiv.org/abs/2005.07541v1
- Date: Fri, 15 May 2020 13:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 22:26:49.710023
- Title: Simple Sensor Intentions for Exploration
- Title(参考訳): 探索用簡易センサインテンション
- Authors: Tim Hertweck, Martin Riedmiller, Michael Bloesch, Jost Tobias
Springenberg, Noah Siegel, Markus Wulfmeier, Roland Hafner, Nicolas Heess
- Abstract要約: 本稿では,補助的なタスクを定義する汎用的な方法として,シンプルなセンサ意図(SSI)を提案する。
SSIは、適切な報酬を定義するのに必要な事前知識の量を削減します。
これらの報奨に基づく学習システムは,シミュレーションや実環境において複雑なロボットタスクを解くことができることを示す。
- 参考スコア(独自算出の注目度): 20.66213700727637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern reinforcement learning algorithms can learn solutions to increasingly
difficult control problems while at the same time reduce the amount of prior
knowledge needed for their application. One of the remaining challenges is the
definition of reward schemes that appropriately facilitate exploration without
biasing the solution in undesirable ways, and that can be implemented on real
robotic systems without expensive instrumentation. In this paper we focus on a
setting in which goal tasks are defined via simple sparse rewards, and
exploration is facilitated via agent-internal auxiliary tasks. We introduce the
idea of simple sensor intentions (SSIs) as a generic way to define auxiliary
tasks. SSIs reduce the amount of prior knowledge that is required to define
suitable rewards. They can further be computed directly from raw sensor streams
and thus do not require expensive and possibly brittle state estimation on real
systems. We demonstrate that a learning system based on these rewards can solve
complex robotic tasks in simulation and in real world settings. In particular,
we show that a real robotic arm can learn to grasp and lift and solve a
Ball-in-a-Cup task from scratch, when only raw sensor streams are used for both
controller input and in the auxiliary reward definition.
- Abstract(参考訳): 現代の強化学習アルゴリズムは、アプリケーションに必要な事前知識の量を削減しながら、ますます難しい制御問題の解を学習することができる。
残る課題の1つは、望ましくない方法でソリューションをバイアスすることなく、探検を適切に促進し、高価な計測なしで実際のロボットシステムに実装できる報酬スキームの定義である。
本稿では,単純なスパース報酬によってゴールタスクが定義され,エージェント内補助タスクによる探索が容易になるような設定に焦点を当てる。
補助タスクを定義する汎用的な方法として,簡易センサインテンション(ssis)の概念を紹介する。
SSIは、適切な報酬を定義するのに必要な事前知識の量を削減します。
さらに、生のセンサーストリームから直接計算することができ、実システム上で高価で不安定な状態推定は不要である。
これらの報酬に基づく学習システムは,シミュレーションや実環境において複雑なロボット課題を解決できることを実証する。
特に、実際のロボットアームは、コントローラ入力と補助報酬定義の両方に生のセンサストリームのみを使用する場合、スクラッチからBall-in-a-Cupタスクを把握、持ち上げ、解決することができることを示す。
関連論文リスト
- Image-Based Deep Reinforcement Learning with Intrinsically Motivated Stimuli: On the Execution of Complex Robotic Tasks [2.1040342571709885]
本研究は, 内在的モチベーション理論に触発されて, 新規性と驚きの内在的刺激が, 複雑で軽微な環境における探索改善に役立つと仮定した。
TD3 のイメージベース拡張である textitNaSA-TD3 で直接学習できる新しいサンプル効率手法を提案する。
実験により、NaSA-TD3は訓練が容易であり、シミュレーション環境と実世界の環境の両方において、複雑な連続制御ロボットタスクに取り組む効率的な方法であることが示された。
論文 参考訳(メタデータ) (2024-07-31T05:11:06Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Autonomous Robotic Reinforcement Learning with Asynchronous Human
Feedback [27.223725464754853]
GEARは、ロボットを現実世界の環境に配置し、中断することなく自律的に訓練することを可能にする。
システムはリモート、クラウドソース、非専門家からの非同期フィードバックのみを必要とする、Webインターフェースにロボットエクスペリエンスをストリームする。
論文 参考訳(メタデータ) (2023-10-31T16:43:56Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Learning of Long-Horizon Sparse-Reward Robotic Manipulator Tasks with
Base Controllers [26.807673929816026]
本稿では,1つ以上の従来型ベースコントローラを用いた長軸スパース・リワードタスクの学習手法を提案する。
提案アルゴリズムは,既存のベースコントローラを探索,価値学習,ポリシー更新の段階に組み込む。
我々の方法は、既存の産業用ロボット操作システムを利用して、より柔軟でインテリジェントなコントローラを構築する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-24T14:23:57Z) - Low Dimensional State Representation Learning with Reward-shaped Priors [7.211095654886105]
本研究では,観測結果から低次元状態空間への写像の学習を目的とした手法を提案する。
このマッピングは、環境とタスクの事前知識を組み込むために形作られた損失関数を用いて教師なしの学習で学習される。
本手法は,シミュレーション環境における移動ロボットナビゲーションタスクおよび実ロボット上でのテストを行う。
論文 参考訳(メタデータ) (2020-07-29T13:00:39Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。