論文の概要: Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.12974v1
- Date: Mon, 27 Apr 2020 17:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 06:05:44.522011
- Title: Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning
- Title(参考訳): 教師なしオフポリティ強化学習による創発的実世界ロボット技術
- Authors: Archit Sharma, Michael Ahn, Sergey Levine, Vikash Kumar, Karol
Hausman, Shixiang Gu
- Abstract要約: 報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
- 参考スコア(独自算出の注目度): 81.12201426668894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning provides a general framework for learning robotic
skills while minimizing engineering effort. However, most reinforcement
learning algorithms assume that a well-designed reward function is provided,
and learn a single behavior for that single reward function. Such reward
functions can be difficult to design in practice. Can we instead develop
efficient reinforcement learning methods that acquire diverse skills without
any reward function, and then repurpose these skills for downstream tasks? In
this paper, we demonstrate that a recently proposed unsupervised skill
discovery algorithm can be extended into an efficient off-policy method, making
it suitable for performing unsupervised reinforcement learning in the real
world. Firstly, we show that our proposed algorithm provides substantial
improvement in learning efficiency, making reward-free real-world training
feasible. Secondly, we move beyond the simulation environments and evaluate the
algorithm on real physical hardware. On quadrupeds, we observe that locomotion
skills with diverse gaits and different orientations emerge without any rewards
or demonstrations. We also demonstrate that the learned skills can be composed
using model predictive control for goal-oriented navigation, without any
additional training.
- Abstract(参考訳): 強化学習は、エンジニアリング作業を最小化しながらロボットスキルを学ぶための一般的なフレームワークを提供する。
しかし、ほとんどの強化学習アルゴリズムは、よく設計された報酬関数が提供されると仮定し、その報酬関数の単一の振る舞いを学ぶ。
このような報酬関数を実際に設計することは困難である。
代わりに、報酬機能なしで多様なスキルを習得し、それらのスキルを下流タスクに再利用する効率的な強化学習方法を開発することができるか?
本稿では,最近提案された教師なしスキル発見アルゴリズムを,実世界で教師なし強化学習を行うのに適した効率的なオフポリシー法に拡張できることを実証する。
まず,提案手法により学習効率が大幅に向上し,無報酬実世界のトレーニングが実現可能であることを示す。
次に,シミュレーション環境を超えて,実ハードウェア上でのアルゴリズムの評価を行う。
四足歩行では、様々な歩行と異なる方向の移動スキルが報酬や実演なしで現れるのが観察できる。
また、学習スキルは、追加のトレーニングなしに、ゴール指向ナビゲーションのためのモデル予測制御を用いて構成できることを実証する。
関連論文リスト
- Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications [0.0]
本稿では,強化学習アルゴリズムの効率性と有効性を高めるために,報酬工学と報酬形成の重要性を強調する。
強化学習の大幅な進歩にもかかわらず、いくつかの制限が続いた。
主要な課題の1つは、多くの現実世界のシナリオにおける報酬のまばらで遅れた性質である。
実世界の環境を正確にモデル化することの複雑さと強化学習アルゴリズムの計算要求は、依然としてかなりの障害である。
論文 参考訳(メタデータ) (2024-07-22T09:28:12Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Variational Curriculum Reinforcement Learning for Unsupervised Discovery
of Skills [25.326624139426514]
本稿では,VUVC(Value Uncertainty Vari Curriculum Curriculum)と呼ばれる情報理論に基づく教師なしスキル発見手法を提案する。
規則性条件下では、VUVCは、均一なカリキュラムに比べて訪問状態のエントロピーの増加を加速させる。
また,本手法によって発見された技術は,ゼロショット設定で現実のロボットナビゲーションタスクを達成できることを実証した。
論文 参考訳(メタデータ) (2023-10-30T10:34:25Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically
Simulated Characters [123.88692739360457]
汎用運動技術により、人間は複雑な作業を行うことができる。
これらのスキルは、新しいタスクを学ぶときの振る舞いを導くための強力な先駆者も提供します。
物理シミュレーション文字のための汎用的で再利用可能なスキル埋め込みを学習するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-04T06:13:28Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Active Hierarchical Imitation and Reinforcement Learning [0.0]
本研究では,我々が開発した階層的模倣強化学習フレームワークを用いて,様々な模倣学習アルゴリズムを探索し,アクティブ学習アルゴリズムを設計した。
実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-14T08:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。