論文の概要: Distilling Morphology-Conditioned Hypernetworks for Efficient Universal Morphology Control
- arxiv url: http://arxiv.org/abs/2402.06570v2
- Date: Mon, 3 Jun 2024 20:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:08:02.715235
- Title: Distilling Morphology-Conditioned Hypernetworks for Efficient Universal Morphology Control
- Title(参考訳): 効率的な普遍的形態制御のための蒸留型ハイパーネット
- Authors: Zheng Xiong, Risto Vuorio, Jacob Beck, Matthieu Zimmer, Kun Shao, Shimon Whiteson,
- Abstract要約: 異なるロボット形態の普遍的なポリシーを学ぶことは、学習効率を著しく向上させ、ゼロショットの一般化を目に見えない形態の一般化を可能にする。
TFのような優れた性能と推論時の高効率を実現するために,HyperDistillを提案する。
何百もの多様な形態のベンチマークであるUNIMALにおいて、HyperDistillはトレーニングと未確認テストロボットの共通TF教師ポリシーと同様に、異なる環境でモデルサイズを6~14倍、計算コストを67~160倍削減することを示した。
- 参考スコア(独自算出の注目度): 34.40439673925125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a universal policy across different robot morphologies can significantly improve learning efficiency and enable zero-shot generalization to unseen morphologies. However, learning a highly performant universal policy requires sophisticated architectures like transformers (TF) that have larger memory and computational cost than simpler multi-layer perceptrons (MLP). To achieve both good performance like TF and high efficiency like MLP at inference time, we propose HyperDistill, which consists of: (1) A morphology-conditioned hypernetwork (HN) that generates robot-wise MLP policies, and (2) A policy distillation approach that is essential for successful training. We show that on UNIMAL, a benchmark with hundreds of diverse morphologies, HyperDistill performs as well as a universal TF teacher policy on both training and unseen test robots, but reduces model size by 6-14 times, and computational cost by 67-160 times in different environments. Our analysis attributes the efficiency advantage of HyperDistill at inference time to knowledge decoupling, i.e., the ability to decouple inter-task and intra-task knowledge, a general principle that could also be applied to improve inference efficiency in other domains.
- Abstract(参考訳): 異なるロボット形態の普遍的なポリシーを学ぶことは、学習効率を著しく向上させ、ゼロショットの一般化を目に見えない形態の一般化を可能にする。
しかし、高性能なユニバーサルポリシーを学ぶには、より単純な多層パーセプトロン(MLP)よりもメモリと計算コストが大きいトランスフォーマー(TF)のような高度なアーキテクチャを必要とする。
TFのような優れた性能と、推論時のMLPのような高効率を実現するために、(1)ロボットのMDPポリシーを生成する形態条件付きハイパーネットワーク(HN)、(2)トレーニングを成功させるために不可欠なポリシー蒸留アプローチからなるHyperDistillを提案する。
何百もの多様な形態のベンチマークであるUNIMALにおいて、HyperDistillはトレーニングと未確認テストロボットの共通TF教師ポリシーと同様に、異なる環境でモデルサイズを6~14倍、計算コストを67~160倍削減することを示した。
我々の分析は、推論時間におけるHyperDistillの効率性は、知識分離、すなわち、タスク間知識とタスク内知識を分離する能力に起因している。
関連論文リスト
- Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - ManyQuadrupeds: Learning a Single Locomotion Policy for Diverse
Quadruped Robots [4.557963624437784]
動物運動制御からインスピレーションを得ることにより、四足歩行ロボットの1つの移動方針を効果的に訓練できることを示す。
我々の方針は脊髄の中央パターン生成器(CPG)の表現を調節する。
我々は,A1ロボットの名目質量の125%に相当する15kgの負荷を付加しても,頑健な性能を観察する。
論文 参考訳(メタデータ) (2023-10-16T15:06:16Z) - Universal Morphology Control via Contextual Modulation [52.742056836818136]
異なるロボット形態をまたいだ普遍的なポリシーの学習は、継続的な制御における学習効率と一般化を著しく向上させることができる。
既存の手法では、グラフニューラルネットワークやトランスフォーマーを使用して、異種状態と異なる形態のアクション空間を処理する。
本稿では,この依存関係を文脈変調によりモデル化する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-22T00:04:12Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - MAMBPO: Sample-efficient multi-robot reinforcement learning using
learned world models [4.84279798426797]
マルチロボットシステムは、少数の試験で行動を学ぶ強化学習(RL)アルゴリズムの恩恵を受けることができます。
マルチエージェントモデルベースポリシー最適化(MAMBPO)という新しいマルチエージェントモデルベースRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-05T13:37:23Z) - Learning Whole-body Motor Skills for Humanoids [25.443880385966114]
本稿では,多種多様なプッシュリカバリとバランス行動のための運動スキルを習得するDeep Reinforcement Learningの階層的枠組みを提案する。
この方針は、ロボットモデルの現実的な設定と、学習したスキルを実際のロボットに簡単に伝達できる低レベルのインピーダンス制御を備えた物理シミュレーターで訓練されている。
論文 参考訳(メタデータ) (2020-02-07T19:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。