論文の概要: Efficiently Learning Small Policies for Locomotion and Manipulation
- arxiv url: http://arxiv.org/abs/2210.00140v1
- Date: Fri, 30 Sep 2022 23:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:20:35.874717
- Title: Efficiently Learning Small Policies for Locomotion and Manipulation
- Title(参考訳): ローコモーションとマニピュレーションを効果的に学習する
- Authors: Shashank Hegde and Gaurav S. Sukhatme
- Abstract要約: グラフハイパーネットワークを活用して、非政治強化学習で訓練されたグラフハイパーポリシーを学習する。
本手法は,任意の非政治強化学習アルゴリズムに付加可能であることを示す。
パラメータ数に対する制約を考慮し,最適なアーキテクチャを選択する方法を提案する。
- 参考スコア(独自算出の注目度): 12.340412143459869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural control of memory-constrained, agile robots requires small, yet highly
performant models. We leverage graph hyper networks to learn graph hyper
policies trained with off-policy reinforcement learning resulting in networks
that are two orders of magnitude smaller than commonly used networks yet encode
policies comparable to those encoded by much larger networks trained on the
same task. We show that our method can be appended to any off-policy
reinforcement learning algorithm, without any change in hyperparameters, by
showing results across locomotion and manipulation tasks. Further, we obtain an
array of working policies, with differing numbers of parameters, allowing us to
pick an optimal network for the memory constraints of a system. Training
multiple policies with our method is as sample efficient as training a single
policy. Finally, we provide a method to select the best architecture, given a
constraint on the number of parameters. Project website:
https://sites.google.com/usc.edu/graphhyperpolicy
- Abstract(参考訳): メモリ制約のあるアジャイルロボットのニューラルコントロールには、小さくて高性能なモデルが必要だ。
グラフハイパーネットワークを利用して,オフポリシー強化学習によってトレーニングされたグラフハイパーポリシを学習することにより,一般的なネットワークよりも2桁小さく,同じタスクでトレーニングされた大規模ネットワークでエンコードされるものと同等のポリシをエンコードするネットワークを実現する。
本手法は,移動作業や操作作業において,ハイパーパラメータの変化を伴わずに,任意の非政治強化学習アルゴリズムに付加可能であることを示す。
さらに,パラメータ数が異なる動作ポリシの配列を取得し,システムのメモリ制約に対して最適なネットワークを選択することができる。
この方法で複数のポリシーをトレーニングすることは、1つのポリシーをトレーニングするのと同じくらい効率的なサンプルです。
最後に,パラメータ数の制約を考慮し,最適なアーキテクチャを選択する方法を提案する。
プロジェクトウェブサイト: https://sites.google.com/usc.edu/graphhyperpolicy
関連論文リスト
- Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - HyperPPO: A scalable method for finding small policies for robotic
control [14.789594427174052]
HyperPPOは、複数のニューラルネットワークの重みを同時に推定する、政治上の強化学習アルゴリズムである。
提案手法は,高パフォーマンスなポリシーを符号化していない一般用ネットワークよりもはるかに小さいネットワークの重みを推定する。
我々は、HyperPPOが見積もる神経政策が、Crazyflie2.1のクアドローターを分散制御できることを示した。
論文 参考訳(メタデータ) (2023-09-28T17:58:26Z) - Low-rank lottery tickets: finding efficient low-rank neural networks via
matrix differential equations [2.3488056916440856]
効率的なローランクワークを見つけるための新しいアルゴリズムを提案する。
これらの作業は、トレーニングフェーズですでに決定され、適応されています。
本手法は,所望の近似精度を達成するために,訓練中のランクを自動的に動的に適応させる。
論文 参考訳(メタデータ) (2022-05-26T18:18:12Z) - DAAS: Differentiable Architecture and Augmentation Policy Search [107.53318939844422]
この研究は、ニューラルネットワークとデータ拡張のカップリングの可能性を検討し、それらを共同で検索する効果的なアルゴリズムを提案する。
CIFAR-10では97.91%、ImageNetデータセットでは76.6%の精度で97.91%の精度を達成し、検索アルゴリズムの優れた性能を示している。
論文 参考訳(メタデータ) (2021-09-30T17:15:17Z) - Coordinated Reinforcement Learning for Optimizing Mobile Networks [6.924083445159127]
数百の協調エージェントを含む複雑なアプリケーションにおいて、協調グラフと強化学習の使い方を示す。
協調強化学習が他の手法より優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-09-30T14:46:18Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Large Scale Distributed Collaborative Unlabeled Motion Planning with
Graph Policy Gradients [122.85280150421175]
本研究では,運動制約と空間制約を多数のロボットに対して2次元空間で解くための学習法を提案する。
ロボットのポリシーをパラメータ化するためにグラフニューラルネットワーク(GNN)を用いる。
論文 参考訳(メタデータ) (2021-02-11T21:57:43Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Randomized Policy Learning for Continuous State and Action MDPs [8.109579454896128]
我々は、連続状態と行動空間を持つMDPに対する一般的なポリシー反復アルゴリズムであるtextttRANDPOLを提案する。
課題のある環境で数値性能を示し、それらをディープニューラルネットワークベースのアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-08T02:49:47Z) - Multi-Task Reinforcement Learning with Soft Modularization [25.724764855681137]
マルチタスク学習は強化学習において非常に難しい問題である。
この最適化問題を緩和するために,ポリシー表現に明示的なモジュール化手法を導入する。
提案手法は,強いベースライン上でのサンプリング効率と性能を,大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2020-03-30T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。