論文の概要: Learning Modular Robot Control Policies
- arxiv url: http://arxiv.org/abs/2105.10049v1
- Date: Thu, 20 May 2021 21:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 10:49:12.037766
- Title: Learning Modular Robot Control Policies
- Title(参考訳): モジュール型ロボット制御の学習
- Authors: Julian Whitman, Matthew Travers, and Howie Choset
- Abstract要約: 我々は,多種多様な設計を取り扱うモジュール型制御ポリシーを構築した。
モジュールが物理的に再設定されているため、ポリシーはキネマティック構造に合わせて自動的に再設定される。
このポリシーは、トレーニング中に見えない大きなデザインの集合に一般化できることが示される。
- 参考スコア(独自算出の注目度): 10.503109190599828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To make a modular robotic system both capable and scalable, the controller
must be equally as modular as the mechanism. Given the large number of designs
that can be generated from even a small set of modules, it becomes impractical
to create a new system-wide controller for each design. Instead, we construct a
modular control policy that handles a broad class of designs. We take the view
that a module is both form and function, i.e. both mechanism and controller. As
the modules are physically re-configured, the policy automatically
re-configures to match the kinematic structure. This novel policy is trained
with a new model-based reinforcement learning algorithm, which interleaves
model learning and trajectory optimization to guide policy learning for
multiple designs simultaneously. Training the policy on a varied set of designs
teaches it how to adapt its behavior to the design. We show that the policy can
then generalize to a larger set of designs not seen during training. We
demonstrate one policy controlling many designs with different combinations of
legs and wheels to locomote both in simulation and on real robots.
- Abstract(参考訳): モジュラーロボットシステムを能力と拡張性を兼ね備えるためには、コントローラーは機構と同じくらいモジュール性を持たなければならない。
少数のモジュールからでも生成できる多数の設計を考えると、設計ごとに新しいシステムワイドコントローラを作成するのは現実的ではない。
代わりに、幅広い種類の設計を扱うモジュラー制御ポリシーを構築します。
モジュールは形式と関数の両方である、という見方を取る。
機構とコントローラの両方。
モジュールが物理的に再設定されているため、ポリシーはキネマティック構造に合わせて自動的に再設定される。
この新方針は、モデル学習と軌道最適化をインターリーブし、複数の設計に対するポリシー学習を同時に指導するモデルベース強化学習アルゴリズムを用いて訓練される。
さまざまなデザインセットでポリシーをトレーニングすることは、その振る舞いを設計に適応させる方法を教える。
このポリシーは、トレーニング中に見えない大きなデザインの集合に一般化できることが示される。
シミュレーションと実際のロボットの両方で、脚と車輪の異なる組み合わせで多くのデザインを制御する政策を実証する。
関連論文リスト
- Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Learning Modular Robot Locomotion from Demonstrations [20.03751606751798]
本研究は, ある設計セットからのデモンストレーションを用いて, 追加設計に対するポリシー学習を高速化する手法を提案する。
本稿では,強化学習と模倣学習を組み合わせたアルゴリズムを提案する。
この組み合わせの目的によってモジュラポリシが最適化された場合、ある設計セットからの実証は、ポリシーが異なる設計に対してどのように振る舞うかに影響を与えることを示す。
論文 参考訳(メタデータ) (2022-10-31T17:15:32Z) - Learning Modular Simulations for Homogeneous Systems [23.355189771765644]
等質多体力学系をモデル化するためのモジュラーシミュレーションフレームワークを提案する。
任意の数の加群を組み合わせることで、様々な結合トポロジーの系をシミュレートすることができる。
我々のモデルは、スクラッチからトレーニングされたモデルと比較して、データ要件やトレーニングの労力が低い新しいシステム構成に移行可能であることを示しています。
論文 参考訳(メタデータ) (2022-10-28T17:48:01Z) - Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文 参考訳(メタデータ) (2022-09-19T18:51:33Z) - Meta Reinforcement Learning for Adaptive Control: An Offline Approach [3.131740922192114]
トレーニングにおいて、既知のオフライン情報を活用するメタ強化学習(meta-RL)制御戦略を定式化する。
我々のメタRLエージェントはリカレントな構造を持ち、隠された状態変数を通して現在のダイナミックスに対して"コンテキスト"を蓄積します。
ここで報告されたテストでは、メタRLエージェントは完全にオフラインで訓練されたが、新しい設定で優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-17T23:58:52Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - One Policy to Control Them All: Shared Modular Policies for
Agent-Agnostic Control [47.78262874364569]
我々は,多種多様なエージェント形態制御を一般化できる単一のグローバルポリシーが存在するかどうかを考察する。
我々は,このグローバルポリシを,同種のモジュール型ニューラルネットワークの集合として表現することを提案する。
複数の平面エージェントに対して,単一のモジュラポリシでロコモーション動作を生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-09T17:59:35Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。