論文の概要: Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.13842v1
- Date: Thu, 25 Mar 2021 13:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 19:18:30.656815
- Title: Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning
- Title(参考訳): モデル予測アクター批判:深層強化学習によるロボットスキル獲得の加速
- Authors: Andrew S. Morgan, Daljeet Nandha, Georgia Chalvatzaki, Carlo D'Eramo,
Aaron M. Dollar, and Jan Peters
- Abstract要約: Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
- 参考スコア(独自算出の注目度): 42.525696463089794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Substantial advancements to model-based reinforcement learning algorithms
have been impeded by the model-bias induced by the collected data, which
generally hurts performance. Meanwhile, their inherent sample efficiency
warrants utility for most robot applications, limiting potential damage to the
robot and its environment during training. Inspired by information theoretic
model predictive control and advances in deep reinforcement learning, we
introduce Model Predictive Actor-Critic (MoPAC), a hybrid
model-based/model-free method that combines model predictive rollouts with
policy optimization as to mitigate model bias. MoPAC leverages optimal
trajectories to guide policy learning, but explores via its model-free method,
allowing the algorithm to learn more expressive dynamics models. This
combination guarantees optimal skill learning up to an approximation error and
reduces necessary physical interaction with the environment, making it suitable
for real-robot training. We provide extensive results showcasing how our
proposed method generally outperforms current state-of-the-art and conclude by
evaluating MoPAC for learning on a physical robotic hand performing valve
rotation and finger gaiting--a task that requires grasping, manipulation, and
then regrasping of an object.
- Abstract(参考訳): モデルに基づく強化学習アルゴリズムの実質的な進歩は、収集されたデータによって誘導されるモデルバイアスによって妨げられ、一般にパフォーマンスを損なう。
一方、本質的なサンプル効率は、ほとんどのロボットアプリケーションに実用性を保証し、トレーニング中のロボットとその環境への潜在的なダメージを制限する。
情報理論モデル予測制御と深層強化学習の進歩にインスパイアされたモデル予測アクタ批判(MoPAC)は,モデル予測ロールアウトとモデルバイアスを軽減するためのポリシー最適化を組み合わせたハイブリッドモデルベース/モデルフリー手法である。
mopacは、ポリシー学習のガイドに最適な軌道を利用するが、そのモデルフリーな手法で探索し、より表現力のあるダイナミクスモデルを学ぶことができる。
この組み合わせは、近似誤差まで最適なスキル学習を保証し、環境との必要な物理的相互作用を低減し、実際のロボットの訓練に適している。
提案手法が現在最先端の手法よりも優れており,バルブ回転と指の出動を行う物理ロボットハンドで学習するためのMoPACを評価することで,物体の把握,操作,再認識を必要とするタスクを評価できることを示す。
関連論文リスト
- Fine-Tuning Generative Models as an Inference Method for Robotic Tasks [18.745665662647912]
ロボット作業における観察にニューラルネットワークモデルのサンプル生成を迅速に適応させる方法について検討する。
鍵となるアイデアは、観測された証拠と一致する生成サンプルにそれを適合させることで、モデルを素早く微調整することである。
本手法は自己回帰モデルと変分自己エンコーダの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-19T16:11:49Z) - End-to-End Reinforcement Learning of Koopman Models for Economic
Nonlinear Model Predictive Control [50.0791489606211]
非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分正確なシステムモデルを必要とする。
メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減するために使用できる。
In this method for end-to-end reinforcement learning of dynamic surrogate model for optimal performance in (e)NMPC applications。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model
Predictive Control [49.60520501097199]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Online Dynamics Learning for Predictive Control with an Application to
Aerial Robots [3.673994921516517]
予測モデルは学習し、モデルベースのコントローラに適用することができるが、これらのモデルはしばしばオフラインで学習される。
このオフライン設定では、トレーニングデータをまず収集し、精巧なトレーニング手順により予測モデルを学ぶ。
本稿では,デプロイ中の動的モデルの精度を継続的に向上するオンライン動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-19T15:51:25Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。