論文の概要: Fast Online Adaptation in Robotics through Meta-Learning Embeddings of
Simulated Priors
- arxiv url: http://arxiv.org/abs/2003.04663v2
- Date: Wed, 6 Jan 2021 19:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:55:29.063102
- Title: Fast Online Adaptation in Robotics through Meta-Learning Embeddings of
Simulated Priors
- Title(参考訳): 模擬前科者のメタラーニング埋め込みによるロボットの高速オンライン適応
- Authors: Rituraj Kaushik, Timoth\'ee Anne and Jean-Baptiste Mouret
- Abstract要約: 現実の世界では、ロボットはモーターの故障から岩の多い地形で自分自身を見つけるまで、あらゆる状況に遭遇するかもしれない。
FAMLEにより、ロボットはベースラインよりもはるかに少ない時間で、新たな損傷に適応できることを示す。
- 参考スコア(独自算出の注目度): 3.4376560669160385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-learning algorithms can accelerate the model-based reinforcement
learning (MBRL) algorithms by finding an initial set of parameters for the
dynamical model such that the model can be trained to match the actual dynamics
of the system with only a few data-points. However, in the real world, a robot
might encounter any situation starting from motor failures to finding itself in
a rocky terrain where the dynamics of the robot can be significantly different
from one another. In this paper, first, we show that when meta-training
situations (the prior situations) have such diverse dynamics, using a single
set of meta-trained parameters as a starting point still requires a large
number of observations from the real system to learn a useful model of the
dynamics. Second, we propose an algorithm called FAMLE that mitigates this
limitation by meta-training several initial starting points (i.e., initial
parameters) for training the model and allows the robot to select the most
suitable starting point to adapt the model to the current situation with only a
few gradient steps. We compare FAMLE to MBRL, MBRL with a meta-trained model
with MAML, and model-free policy search algorithm PPO for various simulated and
real robotic tasks, and show that FAMLE allows the robots to adapt to novel
damages in significantly fewer time-steps than the baselines.
- Abstract(参考訳): メタラーニングアルゴリズムは、数個のデータポイントでシステムの実際のダイナミクスにマッチするようにトレーニングできるような、動的モデルの初期パラメータセットを見つけることで、モデルベース強化学習(MBRL)アルゴリズムを加速することができる。
しかし、現実の世界では、ロボットはモーターの故障から、ロボットのダイナミクスが互いに著しく異なる岩の多い地形で自分自身を見つけるまで、あらゆる状況に遭遇する可能性がある。
本稿では,まず,メタトレーニング状況(事前の状況)がこれほど多様なダイナミクスを持つ場合,一組のメタトレーニングパラメータを出発点として使用する場合,実システムからの膨大な観察が必要であることを示す。
第2に,この制限を緩和するFAMLEと呼ばれるアルゴリズムを提案し,モデルのトレーニングにいくつかの初期出発点(初期パラメータ)をメタトレーニングし,段階的にモデルを現在の状況に適応させる最適な出発点をロボットが選択できるようにする。
我々は,FAMLEとMBRL,MBRLをメタトレーニングモデルとMAML,モデルフリーポリシー探索アルゴリズムPPOを比較し,FAMLEがロボットに対して,ベースラインよりもはるかに少ない時間で新たな損傷に適応できることを示す。
関連論文リスト
- Learning Low-Dimensional Strain Models of Soft Robots by Looking at the Evolution of Their Shape with Application to Model-Based Control [2.058941610795796]
本稿では,低次元物理モデル学習のための合理化手法を提案する。
各種平面ソフトマニピュレータを用いたシミュレーションにより,本手法の有効性を検証した。
物理的に互換性のあるモデルを生成する方法のおかげで、学習したモデルはモデルベースの制御ポリシーと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2024-10-31T18:37:22Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Physics-informed reinforcement learning via probabilistic co-adjustment
functions [3.6787556334630334]
両手法の利点を組み合わせた新しい手法として,コクリグ調整 (CKA) とリッジ回帰調整 (RRA) を導入する。
本手法は,GPプリエントと統合した自己回帰AR1コクリグモデルに基づく。
論文 参考訳(メタデータ) (2023-09-11T12:10:19Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。