論文の概要: Modulating Reservoir Dynamics via Reinforcement Learning for Efficient Robot Skill Synthesis
- arxiv url: http://arxiv.org/abs/2411.10991v1
- Date: Sun, 17 Nov 2024 07:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:28:10.978406
- Title: Modulating Reservoir Dynamics via Reinforcement Learning for Efficient Robot Skill Synthesis
- Title(参考訳): 効率的なロボットスキル合成のための強化学習による貯留層動態の制御
- Authors: Zahra Koulaeizadeh, Erhan Oztop,
- Abstract要約: 貯水池と呼ばれるランダムなリカレントニューラルネットワークは、コンテキスト入力で条件付けられたロボットの動きを学習するために使用することができる。
本稿では,新しいRCベースのLearning from Demonstration(LfD)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A random recurrent neural network, called a reservoir, can be used to learn robot movements conditioned on context inputs that encode task goals. The Learning is achieved by mapping the random dynamics of the reservoir modulated by context to desired trajectories via linear regression. This makes the reservoir computing (RC) approach computationally efficient as no iterative gradient descent learning is needed. In this work, we propose a novel RC-based Learning from Demonstration (LfD) framework that not only learns to generate the demonstrated movements but also allows online modulation of the reservoir dynamics to generate movement trajectories that are not covered by the initial demonstration set. This is made possible by using a Reinforcement Learning (RL) module that learns a policy to output context as its actions based on the robot state. Considering that the context dimension is typically low, learning with the RL module is very efficient. We show the validity of the proposed model with systematic experiments on a 2 degrees-of-freedom (DOF) simulated robot that is taught to reach targets, encoded as context, with and without obstacle avoidance constraint. The initial data set includes a set of reaching demonstrations which are learned by the reservoir system. To enable reaching out-of-distribution targets, the RL module is engaged in learning a policy to generate dynamic contexts so that the generated trajectory achieves the desired goal without any learning in the reservoir system. Overall, the proposed model uses an initial learned motor primitive set to efficiently generate diverse motor behaviors guided by the designed reward function. Thus the model can be used as a flexible and effective LfD system where the action repertoire can be extended without new data collection.
- Abstract(参考訳): 貯水池と呼ばれるランダムなリカレントニューラルネットワークは、タスク目標を符号化するコンテキスト入力に基づいてロボットの動きを学習するために使用できる。
学習は、文脈によって変調された貯水池のランダムなダイナミクスを線形回帰を通して所望の軌跡にマッピングすることで達成される。
これにより、反復勾配降下学習を必要としないため、貯水池計算(RC)アプローチは計算効率が良い。
本研究では,実証運動の生成を学習するだけでなく,貯水池力学のオンライン変調により,初期デモセットでカバーされていない運動軌跡を生成できる新しいRCベース学習デモレーション(LfD)フレームワークを提案する。
これは、ロボットの状態に基づいてコンテキストを動作として出力するポリシーを学習する強化学習(RL)モジュールを使用することで実現される。
文脈次元が典型的に低いことを考えると、RLモジュールでの学習は非常に効率的である。
本研究では,2自由度シミュレーションロボット(DOF)を用いて,障害物回避制約を伴わず,目標に到達するよう教えるシステム実験により,提案モデルの有効性を示す。
初期データセットは、貯水池システムによって学習された一連の到達デモを含む。
アウト・オブ・ディストリビューション目標に到達するために、RLモジュールは、動的コンテキストを生成するポリシーを学習し、生成された軌道が貯水池システムで学習することなく、所望の目標を達成する。
提案モデルでは、初期学習モータプリミティブセットを用いて、設計された報酬関数によって誘導される多様なモータ挙動を効率的に生成する。
これにより、新しいデータ収集なしにアクションレパートリーを拡張できるフレキシブルで効果的なLfDシステムとして使用できる。
関連論文リスト
- Back-stepping Experience Replay with Application to Model-free Reinforcement Learning for a Soft Snake Robot [15.005962159112002]
Back-stepping Experience Replay (BER)は、任意の外部強化学習アルゴリズムと互換性がある。
柔らかいヘビロボットの移動とナビゲーションのためのモデルレスRLアプローチにおけるBERの適用について述べる。
論文 参考訳(メタデータ) (2024-01-21T02:17:16Z) - Deep Learning for Koopman-based Dynamic Movement Primitives [0.0]
実証から学ぶために,クープマン演算子と動的運動プリミティブの理論を結合して新しいアプローチを提案する。
我々のアプローチは glsadmd と呼ばれ、非線形力学系を線形潜在空間に射影し、解が所望の複素運動を再現する。
我々の結果は、LASAハンドライトデータセット上の拡張動的モード分解に匹敵するが、わずかな文字のトレーニングしか行わない。
論文 参考訳(メタデータ) (2023-12-06T07:33:22Z) - Controlling dynamical systems to complex target states using machine
learning: next-generation vs. classical reservoir computing [68.8204255655161]
機械学習を用いた非線形力学系の制御は、システムを周期性のような単純な振る舞いに駆動するだけでなく、より複雑な任意の力学を駆動する。
まず, 従来の貯水池計算が優れていることを示す。
次のステップでは、これらの結果を異なるトレーニングデータに基づいて比較し、代わりに次世代貯水池コンピューティングを使用する別のセットアップと比較する。
その結果、通常のトレーニングデータに対して同等のパフォーマンスを提供する一方で、次世代RCは、非常に限られたデータしか利用できない状況において、著しくパフォーマンスが向上していることがわかった。
論文 参考訳(メタデータ) (2023-07-14T07:05:17Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Contrastive Value Learning: Implicit Models for Simple Offline RL [40.95632543012637]
本研究では,環境力学の暗黙的多段階モデルを学習するコントラスト価値学習(CVL)を提案する。
CVLは報酬関数を使わずに学習できるが、それでも各アクションの値を直接見積もることができる。
CVLは, 複雑な連続制御ベンチマークにおいて, 従来のオフラインRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:10:05Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。