論文の概要: NEARL: Non-Explicit Action Reinforcement Learning for Robotic Control
- arxiv url: http://arxiv.org/abs/2011.01046v1
- Date: Mon, 2 Nov 2020 15:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:30:11.133613
- Title: NEARL: Non-Explicit Action Reinforcement Learning for Robotic Control
- Title(参考訳): NEARL:ロボット制御のための非明示的行動強化学習
- Authors: Nan Lin, Yuxuan Li, Yujun Zhu, Ruolin Wang, Xiayu Zhang, Jianmin Ji,
Keke Tang, Xiaoping Chen, Xinming Zhang
- Abstract要約: 本稿では,明示的な動作を伴わない新しい階層型強化学習フレームワークを提案する。
我々のメタポリシーは次の最適状態の操作を試み、実際の動作は逆ダイナミクスモデルによって生成される。
我々のフレームワークでは、広く利用可能な州のみのデモンストレーションを模倣学習に効果的に活用することができる。
- 参考スコア(独自算出の注目度): 15.720231070808696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, reinforcement learning methods predict the next action based
on the current state. However, in many situations, directly applying actions to
control systems or robots is dangerous and may lead to unexpected behaviors
because action is rather low-level. In this paper, we propose a novel
hierarchical reinforcement learning framework without explicit action. Our meta
policy tries to manipulate the next optimal state and actual action is produced
by the inverse dynamics model. To stabilize the training process, we integrate
adversarial learning and information bottleneck into our framework. Under our
framework, widely available state-only demonstrations can be exploited
effectively for imitation learning. Also, prior knowledge and constraints can
be applied to meta policy. We test our algorithm in simulation tasks and its
combination with imitation learning. The experimental results show the
reliability and robustness of our algorithms.
- Abstract(参考訳): 従来、強化学習法は、現在の状態に基づいて次の行動を予測する。
しかし、多くの場合、制御システムやロボットに直接アクションを適用することは危険であり、アクションがかなり低レベルであるため予期せぬ行動を引き起こす可能性がある。
本稿では,明示的な動作を伴わない新しい階層的強化学習フレームワークを提案する。
我々のメタポリシーは次の最適な状態を操作し、実際のアクションは逆ダイナミクスモデルによって生成される。
学習過程の安定化のために,我々は,敵対的学習と情報ボトルネックをフレームワークに統合する。
我々のフレームワークでは、広く利用可能な州のみのデモンストレーションを模倣学習に効果的に活用することができる。
また、メタポリシーに事前の知識と制約を適用することもできる。
我々はシミュレーションタスクでアルゴリズムをテストし、模倣学習と組み合わせた。
実験結果は,アルゴリズムの信頼性とロバスト性を示す。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Real-World Dexterous Object Manipulation based Deep Reinforcement
Learning [3.4493195428573613]
ロボットの制御に深層強化学習を用いる方法を示す。
この枠組みは, 深層強化学習の低サンプリング効率の欠点を低減させる。
我々のアルゴリズムはシミュレーションで訓練され、微調整なしで現実に移行した。
論文 参考訳(メタデータ) (2021-11-22T02:48:05Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z) - Learning Whole-body Motor Skills for Humanoids [25.443880385966114]
本稿では,多種多様なプッシュリカバリとバランス行動のための運動スキルを習得するDeep Reinforcement Learningの階層的枠組みを提案する。
この方針は、ロボットモデルの現実的な設定と、学習したスキルを実際のロボットに簡単に伝達できる低レベルのインピーダンス制御を備えた物理シミュレーターで訓練されている。
論文 参考訳(メタデータ) (2020-02-07T19:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。