論文の概要: Learning Modular Robot Locomotion from Demonstrations
- arxiv url: http://arxiv.org/abs/2210.17491v1
- Date: Mon, 31 Oct 2022 17:15:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:51:00.254652
- Title: Learning Modular Robot Locomotion from Demonstrations
- Title(参考訳): デモからモジュール型ロボットの移動学習
- Authors: Julian Whitman and Howie Choset
- Abstract要約: 本研究は, ある設計セットからのデモンストレーションを用いて, 追加設計に対するポリシー学習を高速化する手法を提案する。
本稿では,強化学習と模倣学習を組み合わせたアルゴリズムを提案する。
この組み合わせの目的によってモジュラポリシが最適化された場合、ある設計セットからの実証は、ポリシーが異なる設計に対してどのように振る舞うかに影響を与えることを示す。
- 参考スコア(独自算出の注目度): 20.03751606751798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modular robots can be reconfigured to create a variety of designs from a
small set of components. But constructing a robot's hardware on its own is not
enough -- each robot needs a controller. One could create controllers for some
designs individually, but developing policies for additional designs can be
time consuming. This work presents a method that uses demonstrations from one
set of designs to accelerate policy learning for additional designs. We
leverage a learning framework in which a graph neural network is made up of
modular components, each component corresponds to a type of module (e.g., a
leg, wheel, or body) and these components can be recombined to learn from
multiple designs at once. In this paper we develop a combined reinforcement and
imitation learning algorithm. Our method is novel because the policy is
optimized to both maximize a reward for one design, and simultaneously imitate
demonstrations from different designs, within one objective function. We show
that when the modular policy is optimized with this combined objective,
demonstrations from one set of designs influence how the policy behaves on a
different design, decreasing the number of training iterations needed.
- Abstract(参考訳): モジュールロボットは、小さなコンポーネントセットからさまざまなデザインを作成するように再構成することができる。
しかし、ロボットのハードウェアを自分で作るだけでは十分ではありません。
個々のデザインのためのコントローラを作ることもできるが、追加設計のためのポリシーを開発するのには時間がかかる。
本研究は,ある設計セットからのデモンストレーションを用いて,追加設計のためのポリシー学習を加速する手法を提案する。
グラフニューラルネットワークがモジュールコンポーネントで構成され,各コンポーネントがモジュールタイプ(脚,車輪,体など)に対応している学習フレームワークを活用して,複数の設計から一度に学習できるように再結合することが可能である。
本稿では,強化学習と模倣学習を組み合わせたアルゴリズムを提案する。
提案手法は,1つの設計に対する報酬を最大化し,異なる設計からのデモンストレーションを1つの目的関数内で同時に模倣するように最適化されている。
モジュラーポリシーをこの組み合わせの目的に最適化すると、ある設計セットからのデモンストレーションは、ポリシーが異なる設計でどのように振る舞うかに影響し、必要なトレーニングイテレーションの数を減少させる。
関連論文リスト
- One Policy to Run Them All: an End-to-end Learning Approach to Multi-Embodiment Locomotion [18.556470359899855]
統一ロボット形態学アーキテクチャであるURMAを紹介する。
我々のフレームワークは、脚のあるロボットの領域にエンドツーエンドのマルチタスク強化学習アプローチをもたらす。
URMAはロボットプラットフォームに容易に移動可能な複数の実施形態の移動ポリシーを学習できることを示す。
論文 参考訳(メタデータ) (2024-09-10T09:44:15Z) - MeMo: Meaningful, Modular Controllers via Noise Injection [25.541496793132183]
新たなロボットが同じパーツから構築された場合,モジュール型コントローラを再利用することで,その制御を迅速に学習できることが示される。
私たちはMeMoと呼ばれるフレームワークでこれを実現し、Meは(Me)有界で(Mo)有界なコントローラーを学習します。
我々は,ロボット形態変化の簡易化を目標として,移動環境と把握環境の枠組みをベンチマークした。
論文 参考訳(メタデータ) (2024-05-24T18:39:20Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - Learning to Design and Use Tools for Robotic Manipulation [21.18538869008642]
深層学習による形態と制御を共同最適化する最近の技術は, 移動エージェントの設計に有効である。
単一設計ではなく,設計方針の学習を提案する。
このフレームワークは,マルチゴール設定やマルチバリアント設定において,従来の手法よりもサンプリング効率が高いことを示す。
論文 参考訳(メタデータ) (2023-11-01T18:00:10Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - Universal Morphology Control via Contextual Modulation [52.742056836818136]
異なるロボット形態をまたいだ普遍的なポリシーの学習は、継続的な制御における学習効率と一般化を著しく向上させることができる。
既存の手法では、グラフニューラルネットワークやトランスフォーマーを使用して、異種状態と異なる形態のアクション空間を処理する。
本稿では,この依存関係を文脈変調によりモデル化する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-22T00:04:12Z) - Meta Reinforcement Learning for Optimal Design of Legged Robots [9.054187238463212]
モデルなしメタ強化学習を用いた設計最適化フレームワークを提案する。
提案手法は,事前定義された動作や歩行パターンに制約されずに,より高い性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-06T08:37:52Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Learning Modular Robot Control Policies [10.503109190599828]
我々は,多種多様な設計を取り扱うモジュール型制御ポリシーを構築した。
モジュールが物理的に再設定されているため、ポリシーはキネマティック構造に合わせて自動的に再設定される。
このポリシーは、トレーニング中に見えない大きなデザインの集合に一般化できることが示される。
論文 参考訳(メタデータ) (2021-05-20T21:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。